Page 2 - Анализ вопросов автоматизации поиска информации

ISSN 2305-5626. Вестник МГТУ им. Н.Э. Баумана: электронное издание. 2013

2

созданных человеком, были сформулированы в 1949 г. лингвистом и

филологом Дж.К. Зипфом (George Kingsley Zipf) в результате стати-

стического анализа текстов. Законы Зипфа коротко можно сформу-

лировать следующим образом:

– в каждом языке есть слова, которые встречаются чаще, чем

остальные, но не имеют значения;

– есть слова, которые встречаются реже, но имеют намного

большее смысловое значение.

Первый закон Зипфа.

Очевидно, что слова входят в анализируемые

тексты разное число раз. Эта величина называется частотой вхожде-

ния. Если сгруппировать слова по частоте вхождения, то получается

подмножество слов, встречающихся в тексте примерно одинаковое

число раз. Слова, которые встречаются в тексте максимальное число

раз, составляют первое подмножество, и далее по убыванию частоты

вхождения. Порядковый номер подмножества называется рангом ча-

стоты. Вероятность встретить в тексте заданное слово определяется

как отношение частоты вхождения к числу слов в тексте:

Вероятность = Частота вхождения слова / Число слов

Дж.К. Зипфом была обнаружена интересная закономерность:

произведение вероятности обнаружения слова в тексте на ранг часто-

ты (

Вероятность

×

Ранг частоты

)

является величиной, близкой к

постоянной. Следовательно, в соответствии с первым законом Зипфа,

если самое часто встречающееся слово находят в тексте, например,

100 раз, то второе по частоте появления в тексте слово будет встре-

чаться приблизительно 50 раз.

Второй закон Зипфа.

Частота и количество слов, входящих в

текст с этой частотой, связаны между собой. Если построить график,

отложив по оси

Х

частоту вхождения слова, а по оси

Y

— количество

слов, встречающихся с данной частотой, то полученная кривая будет

сохранять свои параметры для всех без исключения созданных чело-

веком текстов на одном языке.

Более того, законы Зипфа имеют универсальный характер, т. е.

справедливы для всех естественных языков (рис. 2) [1]. На каком бы

языке текст ни был написан, форма кривой Зипфа останется неиз-

менной.

Алгоритм ранжирования TF-IDF.

На законах Зипфа базируется ал-

горитм ранжирования, который получил название Term Frequency —

Inverse Document Frequency (TF-IDF). В алгоритме оценивается ча-

стота вхождения слова (TF): как отношение числа вхождений неко-

торого слова к общему количеству слов документа. Таким образом,

оценивается важность слова в пределах отдельного документа:

TF

=

,

i

k k

n

∑