ISSN 2305-5626. Вестник МГТУ им. Н.Э. Баумана: электронное издание. 2013
7
В заключение можно сделать вывод, что проблема информаци-
онного поиска при больших информационных потоках решаема с
помощью поисковой платформы ApacheSolr, а прозрачность и откры-
тость исходного кода предоставляет возможность разработчикам и
программистам использовать сторонние инструменты кластерного
анализа. При этом установлено, что для корпуса документов избран-
ной тематики, полученных мониторингом ресурсов «серого» Интер-
нета, алгоритм кластеризации Lingo обеспечивает наиболее высокое
качество кластеризации. Таким образом, можно констатировать, что
подтверждена целесообразность использования технологий кластер-
ного анализа для извлечения знаний применительно к большим мас-
сивам информации.
СПИСОК ЛИТЕРАТУРЫ
1.
Маннинг К.Д., Рагхаван П. , Шютце Х. Введение в информаци-
онный поиск. М.: Вильямс, 2011. 528 с.
2.
Андрейчиков А.В. , Андрейчикова О.Н. Интеллектуальные ин-
формационные системы. М.: Финансы и статистика, 2004. 424 с.
3.
Технологии анализа данных. DataMining, VisualMining, TextMining,
OLAP / А.А. Барсегян, М.С. Куприянов, В.В. Степаненко, И.И. Холод.
СПб.: БХВ-Петербург, 2007. 384 с.
4.
Башмаков А.И., Башмаков И.А. Интеллектуальные информаци-
онные технологии. М.: Изд-во МГТУ им. Н.Э. Баумана, 2005. 304 с.
5.
The Apache Lucene project develops open-source search software. URL:
/
6.
Or en Zami r, Or en Et z ion i Grouper: a dynamic clustering interface to
Web search results // Networks: The International Journal of Computer and
Telecommunications Networking. 1999. Vol. 31, issue 11–16. P. 1361–
1374.
7.
A survey of Web clustering engines / C. Carpineto, S. Osiński, G. Romano,
D. Weiss // ACM Computing Surveys (CSUR). 2009. Vol. 41, issue 3 (July),
Article No 17.
8.
Summary of clustering algorithms that work within the Carrot2 framework.
URL:
.
Статья поступила в редакцию 25.10.2012
1,2,3,4,5,6 7