ISSN 2305-5626. Вестник МГТУ им. Н.Э. Баумана: электронное издание. 2013
2
Рис. 1. Архитектура ИПС
В представленной ИПС можно выделить три подсистемы:
1) подсистема сбора данных — включает в себя специальную
программу «краулер» («робот», «парсер»), которая проверяет тексто-
вые материалы, изымает все возможные данные и записывает их в
базу данных;
2) подсистема обработки и хранения данных — материалы из ба-
зы данных обрабатываются (морфологический разбор, нормализация
слов) и индексируются (индексы заносятся в специальную базу ин-
дексов поисковой платформы);
3) подсистема взаимодействия с пользователем — пользователь-
ский интерфейс API со строкой для ввода запроса и область вывода
результатов поиска.
Для разработки ИПС с нуля на уровне лучших мировых образцов
требуются серьезные финансовые (до 100 млн долл. в год) и времен-
ные (не менее 5 лет) затраты. Вместе с тем существует достаточно
большой набор модулей, распространяемых как свободное про-
граммное обеспечение, с открытыми исходными кодами. Эти модули
могут лечь в основу создания специализированной ИПС, среди них:
АОТ, MySQL fulltext, Xapian, PostgreSQL Textsearch, Apache Lucene,
ApacheSolr.
Одной из наиболее глубоко проработанных с математической и
программной точек зрения является платформа ApacheSolr, основан-
ная на библиотеке Lucene [5]. Дополнительным преимуществом ар-
хитектуры ApacheSolr является возможность расширения ее функ-
циональности по сравнению с базовой комплектацией.
Применение алгоритмов кластеризации для расширения
возможностей специализированной ИПС.
Кластерный анализ как
самостоятельный раздел математики сложился уже достаточно давно.
Вместе с тем задача применения кластерного анализа к результатам