Стр. 1 - Применение методов кластеризации для анализа неиндексируемых интернет-ресурсов

ISSN 2305-5626. Вестник МГТУ им. Н.Э. Баумана: электронное издание. 2013

1

УДК: 025.4.03

Применение методов кластеризации для анализа

неиндексируемых интернет-ресурсов

М.П. Сычев

1

, А.В. Астрахов

1

,

Д.И. Правиков

1

, О.И. Тягунков

1

МГТУ им. Н.Э. Баумана, Москва, 105005, Россия

Представлены результаты сравнительного анализа двух алгоритмов

кластерного анализа Lingo и STC. В качестве корпуса документов для

оценки возможности кластеризации использован набор документов,

полученных в ходе мониторинга сайтов определенной тематической

направленности. Показано, что для корпуса документов указанной

тематики алгоритм Lingo обеспечивает более высокое качество кла-

стеризации.

E-mail:

zi@bmstu.ru

Ключевые слова:

информационный поиск, извлечение знаний, кластери-

зация, сингулярное разложение, суффиксное дерево.

Введение.

Ввиду стремительного развития информационных ре-

сурсов сети Интернет, их активного использования в различных об-

ластях деятельности человека объемы информации, которую необхо-

димо обрабатывать, возросли многократно, что привело к бурному

развитию технологии распределенного хранения сверхбольших объ-

емов данных. Вместе с тем с ростом объемов информации должны

быть усовершенствованы методы извлечения этой информации и

представления ее пользователю [1—4]. Одним из направлений по-

добной обработки является кластеризация, которая призвана решить

следующие задачи:

– разбиение исходного множества на группы схожих объектов

и предоставление возможности работы с каждой группой в отдель-

ности;

– сокращение объема хранимых данных путем оставления по од-

ному представителю от каждого кластера;

– выделение нетипичных объектов, не подходящих ни к одному

из кластеров (так называемые аномалии).

Особенности информационно-поисковых систем (ИПС) для

обработки неиндексированных сайтов.

Несмотря на то что для по-

иска информации в сети Интернет существуют поисковые системы

Яндекс, Google, Yahoo, Mail, Rambler и др., значительный объем дан-

ных содержится в так называемом сером, темном или глубинном Ин-

тернете — сайтах, не проиндексированных каким-либо общедоступ-

ным поисковиком. Одним из направлений решения задачи обработки

информации неидексированных сайтов является создание собствен-

ной ИПС с последующим ее совершенствованием. Упрощенная ар-

хитектура подобной ИПС показана на рис. 1.