ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012 141
[0, 1], 1
h
g
h H
≤ ≤
,
при этом
1
1,
H
h
h
g
=
=
[0, 1]
h
s
степень соот-
ветствия (или несоответствия) между запросом
q
и
h
-
й зоной. Вели-
чина
h
s
может вычисляться по-разному для каждой из зон [1].
Наиболее простой способ ее определения может быть таким: если все
термины запроса принадлежат конкретной зоне, то ее значение равно
единице; если только один термин принадлежит зоне, то — 1/
r
,
где
r
число терминов в запросе; если ни одного — нулю. В дру-
гих способах определения значения
i
s
может использоваться частота,
с которой встречается в той или иной зоне термин запроса. Способы
могут быть основаны на показателях качества документа, его воз-
расте, длине и т. п. В частности, существует способ определения зон-
ных показателей с помощью функции BM25F [2], которая позволяет
учитывать частоты вхождения термина запроса в зоны документа. В
свою очередь, эта функция основана на функции BM25 [3], представ-
ляющей собой линейную комбинацию трех ключевых атрибутов: ча-
стоты термина, частоты документа и длины документа. В данной ста-
тье особое внимание уделено агрегированию зонных показателей в
единый показатель релевантности документа запросу. Для любого из
способов определения зонных показателей агрегирование осуществ-
ляется путем их линейной комбинации. Таким образом, взвешенная
зонная релевантность рассчитывается по формуле
1
.
H
h h
h
g s
=
(1)
Предположим, что есть множество обучающих примеров, каж-
дый из которых является кортежем, состоящим из запроса
q
,
доку-
мента
d
и оценки релевантности
q
и
d
.
Обычно для любого обуча-
ющего запроса
q
имеется совокупность документов, полностью упо-
рядоченная экспертом по релевантности запросу. В соответствии с
таким порядком оценки релевантности могут выставляться экспер-
том на единичном отрезке. Тогда весовые коэффициенты
h
g
опреде-
ляются путем машинного обучения на доступных примерах так, что-
бы полученные значения коэффициентов позволяли аппроксимиро-
вать оценки релевантности из обучающих примеров. Расчет весовых
коэффициентов сводится к задаче оптимизации, целевая функция ко-
торой представляет собой суммарную ошибку, соответствующую
множеству обучающих примеров. Существуют эмпирические прави-
ла присвоения весовых коэффициентов зонам документа. Например,
достичь высокой точности ранжирования можно, назначив относи-
тельно высокий весовой коэффициент заголовку документа, либо
точность ранжирования новостных документов при поиске по запро-
су можно увеличить выделением первого предложения в отдельную