ISSN 2305-5626. Вестник МГТУ им. Н.Э. Баумана: электронное издание. 2013
1
УДК: 025.4.03
Применение методов кластеризации для анализа
неиндексируемых интернет-ресурсов
М.П. Сычев
1
, А.В. Астрахов
1
,
Д.И. Правиков
1
, О.И. Тягунков
1
1
МГТУ им. Н.Э. Баумана, Москва, 105005, Россия
Представлены результаты сравнительного анализа двух алгоритмов
кластерного анализа Lingo и STC. В качестве корпуса документов для
оценки возможности кластеризации использован набор документов,
полученных в ходе мониторинга сайтов определенной тематической
направленности. Показано, что для корпуса документов указанной
тематики алгоритм Lingo обеспечивает более высокое качество кла-
стеризации.
E-mail:
Ключевые слова:
информационный поиск, извлечение знаний, кластери-
зация, сингулярное разложение, суффиксное дерево.
Введение.
Ввиду стремительного развития информационных ре-
сурсов сети Интернет, их активного использования в различных об-
ластях деятельности человека объемы информации, которую необхо-
димо обрабатывать, возросли многократно, что привело к бурному
развитию технологии распределенного хранения сверхбольших объ-
емов данных. Вместе с тем с ростом объемов информации должны
быть усовершенствованы методы извлечения этой информации и
представления ее пользователю [1—4]. Одним из направлений по-
добной обработки является кластеризация, которая призвана решить
следующие задачи:
– разбиение исходного множества на группы схожих объектов
и предоставление возможности работы с каждой группой в отдель-
ности;
– сокращение объема хранимых данных путем оставления по од-
ному представителю от каждого кластера;
– выделение нетипичных объектов, не подходящих ни к одному
из кластеров (так называемые аномалии).
Особенности информационно-поисковых систем (ИПС) для
обработки неиндексированных сайтов.
Несмотря на то что для по-
иска информации в сети Интернет существуют поисковые системы
Яндекс, Google, Yahoo, Mail, Rambler и др., значительный объем дан-
ных содержится в так называемом сером, темном или глубинном Ин-
тернете — сайтах, не проиндексированных каким-либо общедоступ-
ным поисковиком. Одним из направлений решения задачи обработки
информации неидексированных сайтов является создание собствен-
ной ИПС с последующим ее совершенствованием. Упрощенная ар-
хитектура подобной ИПС показана на рис. 1.