ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012 137
повторяется из соображения, что словообразование в русском языке в
среднем осуществляется за счет двух морфем.
3)
Если после прохождения словоформы по данному алгоритму
два раза лексема не будет определена, то словоформа признается
лексемой и возвращается, как результат работы алгоритма.
Словарь Шарова был взят для определения лексемы на шаге 3 ра-
боты общего алгоритма, так как этот словарь содержит частоты упо-
требления лексем русского языка. Алгоритм поиска лексем с одинако-
выми основами по словарю Зализняка дает ошибки первого и второго
рода. При определении основы словоформы необходимо минимизиро-
вать процент подобных ошибок, что осуществляет путем поиска сов-
падения в словаре, отсортированном по частоте употребления лексем в
русском языке. Таким образом, вероятность корректного выявления
лексемы по словоформе повышается.
Для корректной работы алгоритма была создана база данных, ос-
нованная на словаре Шарова, пример таблицы которой представлен
на рис. 4.
Рис. 4. Часть таблицы «Е» базы данных на основе словаря Шарова:
id — уникальный идентификатор; base — лексема; quantity — частота употребле-
ния лексемы, измеренная в ipm (instances per million words — количество вхожде-
ний на миллион слов)