ISSN 2305-5626. Вестник МГТУ им. Н.Э. Баумана: электронное издание. 2013
6
Таким образом, исходя из полученных данных сравнительного
анализа, видно, что алгоритм Lingo обнаруживает значительно боль-
ше кластеров, обеспечивая высокое качество кластеризации доку-
ментов.
Интеграция данных алгоритмов в специализированную ИПС бы-
ла достигнута путем подключения библиотеки с открытым исходным
кодом Carrot2 SearchResultsClusteringEngine.
Тестирование на реальном корпусе документов.
Тестирование
проведено на текстовом корпусе, состоящем из документов, которые
получены в результате мониторинга сайтов определенной тематиче-
ской направленности, неиндексируемых общеизвестными поисковы-
ми системами. Результаты кластеризации методом Lingo поисковой
выдачи по избранной тематике представлены в табл. 3.
Таблица 3
Результаты кластеризации поисковой выдачи по запросу
«Интернет»
Число
документов
Алгоритм Lingo
Алгоритм STC
50
1. Сети Интернет
2. Социальные сети
…………………..
6. Которые
7. Другие темы
1. Может
2. Интернет
………………
10. РФ
11. Другие темы
100
1. Интернет
2. России
3. Сети Интернет
……………..
25. Которых
26. Данным
27. Другие темы
1. Газеты
2. ОБСЕ
3. Данными интернет-
опросов и интернет-
голосований
…………………………….
13. Сети
14. Сети Интернет
15. Декларацию ОБСЕ
о свободе
16. Другие темы
200
1. Сети Интернет
………………..
60. России
61. Которой
62. Многие
63. Другие темы
1. Газеты
2. Информация
3. Соответствии с данными
Интернет-опросов
………………
14. Многие другие интернет-
форумы
15. Модели китайских
товарищей
16. Другие темы