Стр. 5 - Применение методов кластеризации для анализа неиндексируемых интернет-ресурсов

ISSN 2305-5626. Вестник МГТУ им. Н.Э. Баумана: электронное издание. 2013

5

Заполнение кластеров документами проводится в соответствии с

формулой

т

,

C Q A

=

где

Q

— матрица размерностью

t

×

k

, которая формируется после от-

бора релевантных

k

столбцов из матрицы

P

.

Каждый элемент

С

ij

в матрице размерностью

k

×

d

показывает ве-

личину соответствия

j

-го документа

i

-му кластеру. Документ будет

добавлен в кластер, если соответствующее значение будет больше

порогового.

Кроме того, эти значения могут быть использованы для сорти-

ровки документов в их кластерах, таким образом, наиболее подходя-

щий из них будет легче идентифицировать. Регулируя пороговое зна-

чение, можно контролировать количество документов, попадающих в

каждый кластер.

Сравнительный анализ данных алгоритмов дает следующие ре-

зультаты [8]. В табл. 1 представлены данные по времени выполнения

процесса кластеризации каждого алгоритма при обработке разного

числа документов.

Таблица 1

Время выполнения кластеризации

Алгоритм

Время выполнения, с

100

документов

200

документов

400

документов

Lingo

0,16

0,17

0,31

STC

0,01

0,02

0,06

Согласно данным табл. 1, можно сделать вывод о том, что алго-

ритм Lingo требует на 0,15 с больше времени выполнения по сравне-

нию с алгоритмом STC.

Несмотря на этот незначительный недостаток, алгоритм Lingo

обеспечивает получение большего количества кластеров, что под-

тверждают результаты проведенного анализа (табл. 2).

Таблица 2

Количество полученных кластеров по одному запросу

для разного числа документов

Алгоритм

Количество полученных кластеров, шт.

100

документов

200

документов

400

документов

Lingo

23

63

STC

16