146
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012
правилам, приведенным выше. Обучающие примеры и правила явля-
лись ограничениями, накладываемыми на интеграл Шоке и на его пара-
метры в процессе идентификации нечетких мер. Релевантность доку-
мента запросу оценивалась по пятибалльной шкале, представляющей
собой множество {0, 1, 2, 3, 4}, аналогично тому, как это выполнено в
работе [6]. В этом множестве «0» означает полное несоответствие
документа запросу (отсутствие релевантности), «4» — полное соответ-
ствие (документ релевантен запросу), остальные значения — это про-
межуточные градации релевантности. Для идентификации нечеткой
меры методом минимизации дисперсии был использован специализи-
рованный свободно распространяемый пакет Kappalab [14]. Важным
вопросом, возникшим в процессе идентификации, стала необходимость
экспертного назначения значений порогов безразличия [15]. Эти значе-
ния выбирались исходя из шкалы релевантности документов: для ре-
зультата агрегирования порог безразличия
c
δ
= 0,25. Кроме того, были
соблюдены ограничения, накладываемые на остальные значения поро-
гов безразличия (в работе [16] показано, что значения порогов могут
быть заданы так, что задача идентификации нечеткой меры не будет
иметь решения, и предложены ограничения в виде неравенств, выпол-
нение которых исключает подобную ситуацию).
Экспериментальные исследования проводились на статистически
значимой выборке из 500 поисковых запросов, содержащих термины
из обучающих примеров в различных комбинациях. В результате бы-
ло установлено, что точность ранжирования результатов поиска при
агрегировании на основе интеграла Шоке второго порядка
улучши-
лась в среднем на 1 % по сравнению с точностью ранжирования при
агрегировании средневзвешенным оператором. Здесь под точностью
ранжирования понимается разность назначенной экспертом реле-
вантности документа и релевантности, полученной на основе агреги-
рования зонных показателей с помощью одного из двух операторов.
Заключение.
В статье рассмотрен вопрос практического приме-
нения нечетких мер и интеграла Шоке в области информационного
поиска. Результаты экспериментов показали, что применяя в качестве
оператора агрегирования зонных показателей интеграл Шоке по не-
четкой мере, можно повысить точность ранжирования документов по
сравнению с точностью ранжирования документов с помощью сред-
невзвешенного оператора.
Предполагается исследовать использование предложенного ме-
тода определения весовых коэффициентов на различных коллекциях
документов, а также практическую применимость рассматриваемого
аппарата в других задачах информационного поиска (автоматическое
исправление ошибок, автоматическое реферирование и аннотирова-
ние текстов).