ISSN 2305-5626. Вестник МГТУ им. Н.Э. Баумана: электронное издание. 2013
5
Заполнение кластеров документами проводится в соответствии с
формулой
т
,
C Q A
=
где
Q
— матрица размерностью
t
×
k
, которая формируется после от-
бора релевантных
k
столбцов из матрицы
P
.
Каждый элемент
С
ij
в матрице размерностью
k
×
d
показывает ве-
личину соответствия
j
-го документа
i
-му кластеру. Документ будет
добавлен в кластер, если соответствующее значение будет больше
порогового.
Кроме того, эти значения могут быть использованы для сорти-
ровки документов в их кластерах, таким образом, наиболее подходя-
щий из них будет легче идентифицировать. Регулируя пороговое зна-
чение, можно контролировать количество документов, попадающих в
каждый кластер.
Сравнительный анализ данных алгоритмов дает следующие ре-
зультаты [8]. В табл. 1 представлены данные по времени выполнения
процесса кластеризации каждого алгоритма при обработке разного
числа документов.
Таблица 1
Время выполнения кластеризации
Алгоритм
Время выполнения, с
100
документов
200
документов
400
документов
Lingo
0,16
0,17
0,31
STC
0,01
0,02
0,06
Согласно данным табл. 1, можно сделать вывод о том, что алго-
ритм Lingo требует на 0,15 с больше времени выполнения по сравне-
нию с алгоритмом STC.
Несмотря на этот незначительный недостаток, алгоритм Lingo
обеспечивает получение большего количества кластеров, что под-
тверждают результаты проведенного анализа (табл. 2).
Таблица 2
Количество полученных кластеров по одному запросу
для разного числа документов
Алгоритм
Количество полученных кластеров, шт.
100
документов
200
документов
400
документов
Lingo
23
63
63
STC
16
16
16
1,2,3,4 6,7