Стр. 2 - В.В. Сюзев, А.А. Ханин - Гибридный метод оптического распознавания текста с коррекцией результатов распознавания

применений возможно использование OCR в корпоративных систе-

мах фильтрации спама для случаев, когда спам рассылается в виде

изображений, а также для предотвращения утечек секретной инфор-

мации из организаций — подобные данные очень часто представлены

в виде отсканированных копий документов.

Поскольку многие изображения и архивные документы обычно

имеют достаточно низкое качество и содержат артефакты, даже со-

временные модули распознавания генерируют много ошибок распо-

знавания. Следует отметить, что существующего в некоторых мето-

дах набора простых синтаксических правил в большинстве случаев

недостаточно. Очевидно, классические подходы к оптическому рас-

познаванию текстов подходят к своему технологическому пределу. По

мнению автора, общий контекст операций преобразования документов

в электронный вид предоставляет возможность распознавания текста

на уровне всего документа и знания коллекции уровня, что целесо-

образно использовать для решения задач конвертации документа в

электронный вид с минимальным числом ошибок.

В настоящей статье рассматривается техника эффективного пе-

ревода изображений документов текста в последовательность кодов,

использующихся для представления в текстовом редакторе. При этом

в центре внимания оказывается симбиоз оптического распознавания

символов и постпроцессора результатов. Предложен разработанный

автором гибридный алгоритм оптического распознавания текста со

встроенной коррекцией результатов распознавания. Основная идея

OCR-алгоритма состоит в комплексировании результатов распозна-

вания полученного бинарного изображения разработанным набором

шаблонов и дескрипторов полутоновых изображений машиной опор-

ных векторов (support vector machine), далее SVM [1]. Коррекция

результатов распознавания осуществляется по словарю и набору зна-

ний на базе структур верхнего уровня (слово, строка) и позволяет

наделить систему искусственным интеллектом и существенно повы-

сить вероятность распознавания отдельных символов — по аналогии

с человеческим мозгом информация воспринимается не однобоко, а

с учетом рядом стоящих символов и контекста. Ядро постпроцессора

построено вместо наиболее часто применяемого расстояния Левен-

штейна [2] на нетривиальной метрике — лексические структуры пред-

ставляются радиусом-вектором в цифробуквенной системе координат,

что позволяет существенно повысить скорость алгоритмов нечеткого

поиска по словарю для устранения ошибок модуля распознавания и

орфографической коррекции документа.

Приведены результаты экспериментов по измерению качества рас-

познавания OCR-модуля как в отдельности, так и при использовании

знаний на уровне документа постпроцессором.

154

ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012