ISSN 2305-5626. Вестник МГТУ им. Н.Э. Баумана: электронное издание. 2013
1
УДК 025.4.03
Анализ вопросов автоматизации
поиска информации
Н.Ю. Рязанова
1
1
МГТУ им. Н.Э. Баумана, Москва, 105005, Россия
Рассмотрены вопросы полнотекстового поиска и анализа текстовой
информации для построения современных поисковых систем. Про-
анализированы методы оценки релевантности найденной информа-
ции поисковому запросу на естественном языке.
E-mail:
Ключевые слова:
поисковая система, полнотекстовый поиск, релевант-
ность запросу.
Поиск информации начинается с формулирования запроса, отра-
жающего цель поиска. Как известно, в ответ на запрос любая интер-
нет-поисковая система выводит список ссылок с краткими выдерж-
ками из найденных документов. Очевидно, что качество поисковой
системы с точки зрения пользователя зависит от того, насколько точ-
но полученные выдержки отражают содержание запроса. Оценка
степени соответствия полученных документов запросу или содержа-
тельной релевантности (адекватности) является, по своей сути, субъ-
ективной оценкой. Для автоматизации процесса поиска информации
вводится понятие формальной релевантности. Процесс информаци-
онного поиска может быть представлен последовательностью шагов,
приведенной на рис. 1.
Индексирование
документов
Разбор
поискового
запроса
Поиск
релевантных
документов
Ранжирование
результатов
Индексируемые
документы
Запрос
Составление
ранжированного
списка документов
Результат
поиска
Рис. 1
К переменным параметрам относятся тематика поиска и запрос.
Формализация ранжирования.
Вопросы полнотекстового поис-
ка естественным образом связаны с анализом текста. Эмпирические
законы, которые отражают характерные особенности любых текстов,