Стр. 13 - В.В. Сюзев, А.А. Ханин - Гибридный метод оптического распознавания текста с коррекцией результатов распознавания

базе первого метода при отличии доминантного значения корреляции

более чем на

β

(по умолчанию

β

= 0

,

2

). В противном случае предпо-

чтение будет отдано результату, полученному с помощью SVM.

В результате тестов комплекса

SpecTemplateCorr

+

SVM linear

на

описанной тестовой выборке была достигнута вероятность распозна-

вания 99,17%.

Коррекция результатов.

Как было сказано ранее, коррекция ре-

зультатов OCR-модуля с учетом контекста документа может быть мощ-

ным инструментом повышения общего качества распознавания. Кро-

ме того, даже если документ распознан абсолютно верно, нельзя ис-

ключать наличие допущенных в нем орфографических ошибок, кор-

рекция которых тоже является необходимым этапом. Автором был

разработан алгоритм подобной коррекции. Идея метода заключается

в использовании общих словарей для проверки существования распо-

знанных слов. Чаще всего имеется априорная информация об области

принадлежности документа, что позволяет использовать тематические

словари.

На завершающей стадии распознавания группы символов, образу-

ющих слово, выполняется нечеткий поиск близких ему слов. В ка-

честве примера приведем известную демонстрацию близких слов с

учетом возможных орфографических ошибок, удалений, вставок и пе-

рестановок букв (рис. 8.).

Весь спектр слов справа, возможно полученных в результате оши-

бочного распознавания или опечатки, должен быть приведен к един-

ственному верному слову с учетом рода и падежа. Нечеткий поиск

подразумевает использование критерия близости слов — метрики. Наи-

более часто применяемой метрикой является расстояние Левенштейна

[1] или расстояние редактирования. Автором был разработан метод

коррекции, в основе которого лежит векторное представление слов.

Суть подхода поясняет рис. 9.

Слово представляется в виде радиуса-вектора в многомерном ев-

клидовом пространстве, число измерений которого определяется чи-

слом допустимых символов в системе. На рисунке отчетливо видно,

что два трудно сравнимых, но близких, слова имеют очень похожую

характерную подпись. Мерой близости в данном случае является ска-

лярное произведение полученных векторов.

Для тестирования применялся отсканированный текст тематики

Computer Science общим числом слов 1824, число символов равня-

лось 13 680. Тестирование проводилось с использованием вручную

составленного словаря из 250 слов аналогичной тематики. Результаты

эксперимента проводятся в табл. 2.

ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012

165