ISSN 2305-5626. Вестник МГТУ им. Н.Э. Баумана: электронное издание. 2013
4
При сингулярном разложении терм-документная матрица
A
раз-
мерностью
t
×
d
разлагается на матрицы
U
,
S
и
V
так, чтобы
A
=
=
USV
–1
. Здесь
U
— ортогональная матрица размерностью
t
×
t
, где
столбцы называют левыми сингулярными векторами матрицы
A
;
V
ортогональная матрица размерностью
d
×
d
, где строки называют
правыми сингулярными векторами матрицы
A
;
S
— диагональная
матрица размерностью
t
×
d
с диагональными элементами, упорядо-
ченными по убыванию:
1 1
min( , )
...
.
t d
σ ≥ σ ≥ ≥ σ
При этом ранг
r
A
матрицы
A
равен числу ненулевых элементов.
Алгоритм Lingo предусматривает следующие этапы:
1-й — подача на вход системы множества документов;
2-й — предварительная обработка документов;
3-й — выделение часто встречающихся выражений (термов);
4-й — поиск имен кластеров;
5-й — заполнение кластеров документами;
6-й — сортировка кластеров для отображения;
7-й — вывод результатов кластеризации.
Следует отметить, что в рамках предварительной обработки до-
кументов проводятся следующие процедуры:
– очистка текста от HTML-тэгов и специальных символов;
– определение языка текста;
– морфологическая обработка;
– сегментация;
– приведение слов к нормальной форме;
– удаление стоп-слов;
– выделение часто встречающихся выражений.
Суть метода Lingo заключается в том, что сингулярному разло-
жению подвергается терм-документная матрица
А
, а в полученной
матрице
U
столбцы представляют абстрактные понятия, встречаю-
щиеся в исходных документах.
Поиск абстрактных понятий и фраз проводится с помощью
классической функции косинусного расстояния. При этом опреде-
ляется, насколько хорошо фраза представляет собой абстрактное
понятие:
т
,
M U P
=
где
P
— матрица размерностью
t
×
(
t
+
p
) построена посредством об-
работки фраз как псевдо-документов и с использованием TF-IDF схе-
мы взвешивания для оценки важности слова в контексте документа.
Матрица
M
размерностью
k
×
(
t
+
p
) является матрицей косинусов
для каждой пары абстрактное понятие — фраза.
Выбирается одно слово или фраза как имя кластера с наиболь-
шим значением для каждого абстрактного понятия.
1,2,3 5,6,7