ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012 145
агрегирования по Шоке;
( )
a D
функция множества на множестве
J
,
которая в комбинаторике называется функцией Мёбиуса по
ψ
,
( )
( 1)
( )
D G
G D
a D
D
ψ
= −
;
1
, ...,
H
s s
и
1
, ...,
H
s s
значения зонных
показателей для двух документов, первый из которых более релеван-
тен запросу по мнению эксперта (отношение строгого порядка между
двумя оценками релевантности).
Процедура определения весовых коэффициентов для взве-
шенного зонного ранжирования.
При использовании в качестве
оператора агрегирования интеграла Шоке по нечеткой мере эта про-
цедура состоит из следующих шагов.
Шаг 1.
Сформировать множество зон типового документа, а так-
же способы определения зонных показателей.
Шаг 2.
Сформировать в рамках коллекции документов обучаю-
щие примеры
1
, ...,
K
Φ Φ
в виде заданных экспертом оценок релевант-
ности
( ,
)
k k
r d q
и (или) нестрогого частичного порядка на множестве
этих оценок, т. е. осуществить экспертное ранжирование документов
по отношению к запросу, а также правила в виде частичных нестро-
гих порядков на множествах параметров интеграла Шоке.
Шаг 3.
Формализовать полученную на шаге 2 информацию в ви-
де ограничений на параметры интеграла Шоке в виде неравенств с
порогами безразличия. Задать значения порогов безразличия экс-
пертно исходя из характера обучающих примеров и применяемых
шкал.
Шаг 4.
Идентифицировать нечеткую меру на основе информации,
полученной на шаге 3 с помощью метода минимизации дисперсии.
При добавлении к множеству обучающих примеров и множеству
правил новой доступной информации процедура повторяется, начи-
ная с шага 3. Интеграл Шоке по нечеткой мере
,
ψ
полученной в ре-
зультате этой процедуры, является оператором агрегирования зонных
показателей, с помощью которого осуществляется ранжирование до-
кументов по степени их релевантности запросу.
Экспериментальное исследование.
В ходе экспериментального
исследования не ставилась задача создания полноценной поисковой
системы. Цель исследования заключалась в получении ответа на во-
прос о практической применимости относительно нового аппарата
нечетких мер и интеграла Шоке в области информационного поиска.
Множество обучающих примеров включало в себя 100 терминов
и около 300 документов (публикации в научных журналах). Рассмат-
ривались четыре зоны документов: заглавие, аннотация, основной
текст и список литературы. Зонные показатели
i
s
вычислялись на
основе функции BM25F [2]. Кроме того, исходными данными для
машинного обучения были два эмпирических правила, аналогичные