ISSN 2305-5626. Вестник МГТУ им. Н.Э. Баумана: электронное издание. 2013
2
созданных человеком, были сформулированы в 1949 г. лингвистом и
филологом Дж.К. Зипфом (George Kingsley Zipf) в результате стати-
стического анализа текстов. Законы Зипфа коротко можно сформу-
лировать следующим образом:
– в каждом языке есть слова, которые встречаются чаще, чем
остальные, но не имеют значения;
– есть слова, которые встречаются реже, но имеют намного
большее смысловое значение.
Первый закон Зипфа.
Очевидно, что слова входят в анализируемые
тексты разное число раз. Эта величина называется частотой вхожде-
ния. Если сгруппировать слова по частоте вхождения, то получается
подмножество слов, встречающихся в тексте примерно одинаковое
число раз. Слова, которые встречаются в тексте максимальное число
раз, составляют первое подмножество, и далее по убыванию частоты
вхождения. Порядковый номер подмножества называется рангом ча-
стоты. Вероятность встретить в тексте заданное слово определяется
как отношение частоты вхождения к числу слов в тексте:
Вероятность = Частота вхождения слова / Число слов
Дж.К. Зипфом была обнаружена интересная закономерность:
произведение вероятности обнаружения слова в тексте на ранг часто-
ты (
Вероятность
×
Ранг частоты
)
является величиной, близкой к
постоянной. Следовательно, в соответствии с первым законом Зипфа,
если самое часто встречающееся слово находят в тексте, например,
100 раз, то второе по частоте появления в тексте слово будет встре-
чаться приблизительно 50 раз.
Второй закон Зипфа.
Частота и количество слов, входящих в
текст с этой частотой, связаны между собой. Если построить график,
отложив по оси
Х
частоту вхождения слова, а по оси
Y
— количество
слов, встречающихся с данной частотой, то полученная кривая будет
сохранять свои параметры для всех без исключения созданных чело-
веком текстов на одном языке.
Более того, законы Зипфа имеют универсальный характер, т. е.
справедливы для всех естественных языков (рис. 2) [1]. На каком бы
языке текст ни был написан, форма кривой Зипфа останется неиз-
менной.
Алгоритм ранжирования TF-IDF.
На законах Зипфа базируется ал-
горитм ранжирования, который получил название Term Frequency —
Inverse Document Frequency (TF-IDF). В алгоритме оценивается ча-
стота вхождения слова (TF): как отношение числа вхождений неко-
торого слова к общему количеству слов документа. Таким образом,
оценивается важность слова в пределах отдельного документа:
TF
=
,
i
k k
n
n
1 3,4,5