Стр. 3 - Е.А. Тихомирова - Минимизация ошибок идентификации лексем в текстах, написанных на естественном языке

ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012 133

Рис. 1. Часть таблицы «Е» базы данных на основе словаря Зализняка:

id — уникальный идентификатор поля; word — словоформа; base — лексема дан-

ной словоформы

База данных состоит из 29 таблиц. Таблицы названы по буквам

алфавита русского языка с учетом того, что слов, начинающихся на

буквы «ь», «ъ» и «ы» в русском языке нет, а буквы «е» и «ё» были

приведены к «е» и находятся в одной таблице «Е». Слова располага-

ются в таблицах по условию совпадения названия таблицы и первой

буквы словоформы (см. рис. 1).

Для расширения возможностей идентификации был взят словарь

ПроЛинг, который в отличие от словаря Зализняка содержит много

аббревиатур, собственных имен, составных слов, причастий [2]. Та-

ким образом, используя указанный словарь совместно со словарем

Зализняка, можно получить большее число распознанных словоформ.

С помощью такого метода осуществляется запрос к базам данных

и определяются лексемы по найденной в тексте словоформе. Резуль-

тат работы метода приведен в табл. 3.

Таблица 3

Результат работы метода,

основанного на использовании словарей Зализняка и ПроЛинг

Слово

Частота

употребления

Слово

Частота

употребления

Говорил

4

Он

11

Говорила

1

Пирожковый

2

Обед

4

Пирожок

1

Обедать

1

Попробовать

2

Обыкновение

1

Рыжик

3

Обыкновенный

3

Что

6