ISSN 2305-5626. Вестник МГТУ им. Н.Э. Баумана: электронное издание. 2013
5
Заполнение кластеров документами проводится в соответствии с
формулой
т
,
C Q A
=
где
Q
— матрица размерностью
t
×
k
, которая формируется после от-
бора релевантных
k
столбцов из матрицы
P
.
Каждый элемент
С
ij
в матрице размерностью
k
×
d
показывает ве-
личину соответствия
j
-го документа
i
-му кластеру. Документ будет
добавлен в кластер, если соответствующее значение будет больше
порогового.
Кроме того, эти значения могут быть использованы для сорти-
ровки документов в их кластерах, таким образом, наиболее подходя-
щий из них будет легче идентифицировать. Регулируя пороговое зна-
чение, можно контролировать количество документов, попадающих в
каждый кластер.
Сравнительный анализ данных алгоритмов дает следующие ре-
зультаты [8]. В табл. 1 представлены данные по времени выполнения
процесса кластеризации каждого алгоритма при обработке разного
числа документов.
Таблица 1
Время выполнения кластеризации
Алгоритм
Время выполнения, с
100
документов
200
документов
400
документов
Lingo
0,16
0,17
0,31
STC
0,01
0,02
0,06
Согласно данным табл. 1, можно сделать вывод о том, что алго-
ритм Lingo требует на 0,15 с больше времени выполнения по сравне-
нию с алгоритмом STC.
Несмотря на этот незначительный недостаток, алгоритм Lingo
обеспечивает получение большего количества кластеров, что под-
тверждают результаты проведенного анализа (табл. 2).
Таблица 2
Количество полученных кластеров по одному запросу
для разного числа документов
Алгоритм
Количество полученных кластеров, шт.
100
документов
200
документов
400
документов
Lingo
23
63
63
STC
16
16
16