УДК 004.932.2; 004.93
1
11
В. В. С ю з е в, А. А. Х а н и н
ГИБРИДНЫЙ МЕТОД ОПТИЧЕСКОГО
РАСПОЗНАВАНИЯ ТЕКСТА С КОРРЕКЦИЕЙ
РЕЗУЛЬТАТОВ РАСПОЗНАВАНИЯ
Рассмотрена задача перевода информации с бумажных носителей
в электронный вид. Предложен гибридный метод оптического рас-
познавания символов на основе комплексирования результатов ана-
лиза полутоновых и бинарных изображений. Предложена метрика
нечеткого поиска для орфографической и синтаксической коррек-
ций распознанного текста с использованием словаря. Разработан
программный комплекс для распознавания текстовых изображений
и коррекции текста. Проведено сравнение результатов распознава-
ния полутоновых изображений, полученных различными методами,
показавшее высокую точность разработанного метода.
E-mail:
;
Ключевые слова
:
обработка изображений, сегментация, распознавание
символов и текста, синтаксический анализ, парсинг, OCR.
Оптическое распознавание символов (optical character recognition),
далее — OCR, является технологией механического или электронного
перевода отсканированных изображений рукописного, машинописно-
го или печатного текстов в электронный вид. OCR позволяет сократить
объем занимаемой информации, делает возможным редактирование
текста, поиск по слову или фразе, позволяет просматривать или рас-
печатывать документы без артефактов сканирования и применять к
тексту такие действия, как машинный перевод, синтез речи и т.д.
Оптическое распознавание текста является исследуемой пробле-
мой в областях распознавания образов, искусственного интеллекта и
компьютерного зрения. Работы в данном направлении ведутся уже
на протяжении нескольких десятилетий, и достигнутые результаты
впечатляют. В настоящее время разработано достаточно большое чи-
сло разнообразных методов. В отличие от ранних версий, существую-
щие OCR подходы не требуют калибровки для работы с конкретным
шрифтом и позволяют обеспечить достаточно высокую вероятность
достоверного распознавания большинства шрифтов. Некоторые си-
стемы оптического распознавания текста способны восстанавливать
исходное форматирование текста, включая изображения, колонки и
другие нетекстовые компоненты.
Сегодня OCR-технологии являются неотъемлемой частью повсе-
дневной жизни и широко используются для конвертации книг и до-
кументов в электронный вид, для автоматизации систем учета в биз-
несе или публикации текста на веб-странице. Помимо стандартных
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012
153