применений возможно использование OCR в корпоративных систе-
мах фильтрации спама для случаев, когда спам рассылается в виде
изображений, а также для предотвращения утечек секретной инфор-
мации из организаций — подобные данные очень часто представлены
в виде отсканированных копий документов.
Поскольку многие изображения и архивные документы обычно
имеют достаточно низкое качество и содержат артефакты, даже со-
временные модули распознавания генерируют много ошибок распо-
знавания. Следует отметить, что существующего в некоторых мето-
дах набора простых синтаксических правил в большинстве случаев
недостаточно. Очевидно, классические подходы к оптическому рас-
познаванию текстов подходят к своему технологическому пределу. По
мнению автора, общий контекст операций преобразования документов
в электронный вид предоставляет возможность распознавания текста
на уровне всего документа и знания коллекции уровня, что целесо-
образно использовать для решения задач конвертации документа в
электронный вид с минимальным числом ошибок.
В настоящей статье рассматривается техника эффективного пе-
ревода изображений документов текста в последовательность кодов,
использующихся для представления в текстовом редакторе. При этом
в центре внимания оказывается симбиоз оптического распознавания
символов и постпроцессора результатов. Предложен разработанный
автором гибридный алгоритм оптического распознавания текста со
встроенной коррекцией результатов распознавания. Основная идея
OCR-алгоритма состоит в комплексировании результатов распозна-
вания полученного бинарного изображения разработанным набором
шаблонов и дескрипторов полутоновых изображений машиной опор-
ных векторов (support vector machine), далее SVM [1]. Коррекция
результатов распознавания осуществляется по словарю и набору зна-
ний на базе структур верхнего уровня (слово, строка) и позволяет
наделить систему искусственным интеллектом и существенно повы-
сить вероятность распознавания отдельных символов — по аналогии
с человеческим мозгом информация воспринимается не однобоко, а
с учетом рядом стоящих символов и контекста. Ядро постпроцессора
построено вместо наиболее часто применяемого расстояния Левен-
штейна [2] на нетривиальной метрике — лексические структуры пред-
ставляются радиусом-вектором в цифробуквенной системе координат,
что позволяет существенно повысить скорость алгоритмов нечеткого
поиска по словарю для устранения ошибок модуля распознавания и
орфографической коррекции документа.
Приведены результаты экспериментов по измерению качества рас-
познавания OCR-модуля как в отдельности, так и при использовании
знаний на уровне документа постпроцессором.
154
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012