базе первого метода при отличии доминантного значения корреляции
более чем на
β
(по умолчанию
β
= 0
,
2
). В противном случае предпо-
чтение будет отдано результату, полученному с помощью SVM.
В результате тестов комплекса
SpecTemplateCorr
+
SVM linear
на
описанной тестовой выборке была достигнута вероятность распозна-
вания 99,17%.
Коррекция результатов.
Как было сказано ранее, коррекция ре-
зультатов OCR-модуля с учетом контекста документа может быть мощ-
ным инструментом повышения общего качества распознавания. Кро-
ме того, даже если документ распознан абсолютно верно, нельзя ис-
ключать наличие допущенных в нем орфографических ошибок, кор-
рекция которых тоже является необходимым этапом. Автором был
разработан алгоритм подобной коррекции. Идея метода заключается
в использовании общих словарей для проверки существования распо-
знанных слов. Чаще всего имеется априорная информация об области
принадлежности документа, что позволяет использовать тематические
словари.
На завершающей стадии распознавания группы символов, образу-
ющих слово, выполняется нечеткий поиск близких ему слов. В ка-
честве примера приведем известную демонстрацию близких слов с
учетом возможных орфографических ошибок, удалений, вставок и пе-
рестановок букв (рис. 8.).
Весь спектр слов справа, возможно полученных в результате оши-
бочного распознавания или опечатки, должен быть приведен к един-
ственному верному слову с учетом рода и падежа. Нечеткий поиск
подразумевает использование критерия близости слов — метрики. Наи-
более часто применяемой метрикой является расстояние Левенштейна
[1] или расстояние редактирования. Автором был разработан метод
коррекции, в основе которого лежит векторное представление слов.
Суть подхода поясняет рис. 9.
Слово представляется в виде радиуса-вектора в многомерном ев-
клидовом пространстве, число измерений которого определяется чи-
слом допустимых символов в системе. На рисунке отчетливо видно,
что два трудно сравнимых, но близких, слова имеют очень похожую
характерную подпись. Мерой близости в данном случае является ска-
лярное произведение полученных векторов.
Для тестирования применялся отсканированный текст тематики
Computer Science общим числом слов 1824, число символов равня-
лось 13 680. Тестирование проводилось с использованием вручную
составленного словаря из 250 слов аналогичной тематики. Результаты
эксперимента проводятся в табл. 2.
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012
165
1...,3,4,5,6,7,8,9,10,11,12 14,15