ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012 131
УДК 004.021
Е.А. Т и х о м и р о в а
МИНИМИЗАЦИЯ ОШИБОК
ИДЕНТИФИКАЦИИ ЛЕКСЕМ В ТЕКСТАХ,
НАПИСАННЫХ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ
Представлен метод автоматизированной минимизации ошибок
идентификации лексем в текстах, написанных на естественном язы-
ке. Метод основан на совместном использовании словарной морфоло-
гии и аналитического метода. Применение метода позволит улуч-
шить качество автороведческой экспертизы, что повысит вероят-
ность идентификации автора по написанным им текстам.
E-mail:
Ключевые слова
:
частотный метод, автороведческая экспертиза,
словоформа, лексема, морфологический анализ.
Введение.
Широко используемый в задачах идентификации тек-
стов метод частотных словарей предполагает подсчет частоты упо-
требления того или иного слова в тексте. При попытке автоматизации
этого процесса исследователи сталкиваются с трудностями иденти-
фикации лексем, связанных с множеством словоформ одного и того
же слова. При подобном подсчете текст необходимо подвергнуть
первоначальной обработке: привести весь текст к нижнему регистру
и заменить буквы «ё» на «е», так как часто в печатных (и не только)
текстах буква «ё» заменяется «е» иногда и самим автором. Затем тре-
буется определить частоту употребления слов, например, с помощью:
1)
методов подсчета частоты употребления словоформ;
2)
методов словарной морфологии;
3)
аналитических методов анализа словоформ.
Несмотря на то, что перечисленные методы используются иссле-
дователями при составлении частотных словарей, они обладают не-
достаточно высокой способностью идентификации лексем. Так, ал-
горитм метода подсчета частоты употребления словоформ (самый
простой, наименее эффективный и малоиспользуемый алгоритм) не
предполагает какого-либо морфологического анализа текста, а про-
сто определяет число появления одних и тех же словоформ, идентич-
ных по написанию. Главный недостаток такого метода заключается в
том, что слова, являющиеся двумя словоформами одной лексемы,
представляют собой различные лексемы для этого вида анализа
(
например, «дом» и «дома»). Для иллюстрации работы метода под-
счета был взят отрывок из повести Н.В. Гоголя «Старосветские по-
мещики». Частота употребления некоторых встречающихся в этом
отрывке слов, подсчитанная вручную, приведена в табл. 1.
ИНФОРМАТИКА
И ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА