ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012 133
Рис. 1. Часть таблицы «Е» базы данных на основе словаря Зализняка:
id — уникальный идентификатор поля; word — словоформа; base — лексема дан-
ной словоформы
База данных состоит из 29 таблиц. Таблицы названы по буквам
алфавита русского языка с учетом того, что слов, начинающихся на
буквы «ь», «ъ» и «ы» в русском языке нет, а буквы «е» и «ё» были
приведены к «е» и находятся в одной таблице «Е». Слова располага-
ются в таблицах по условию совпадения названия таблицы и первой
буквы словоформы (см. рис. 1).
Для расширения возможностей идентификации был взят словарь
ПроЛинг, который в отличие от словаря Зализняка содержит много
аббревиатур, собственных имен, составных слов, причастий [2]. Та-
ким образом, используя указанный словарь совместно со словарем
Зализняка, можно получить большее число распознанных словоформ.
С помощью такого метода осуществляется запрос к базам данных
и определяются лексемы по найденной в тексте словоформе. Резуль-
тат работы метода приведен в табл. 3.
Таблица 3
Результат работы метода,
основанного на использовании словарей Зализняка и ПроЛинг
Слово
Частота
употребления
Слово
Частота
употребления
Говорил
4
Он
11
Говорила
1
Пирожковый
2
Обед
4
Пирожок
1
Обедать
1
Попробовать
2
Обыкновение
1
Рыжик
3
Обыкновенный
3
Что
6