Стр. 5 - В.В. Сюзев, А.А. Ханин - Гибридный метод оптического распознавания текста с коррекцией результатов распознавания

Рис. 3. Одна итерация

должно гарантированно соблю-

даться. Однако оно не работает в

таком виде применительно к бина-

ризации для OCR-алгоритмов, так

как значения изображения сохра-

няются, что приводит к сильно-

му зашумлению фона, если значе-

ние фона отлично от нуля. Вме-

сто этого в используемой бина-

ризации MarginED диффундируют

только ошибки или неопределенные пиксели. Пиксели, определенные

точнее, бинаризуются полностью.

Алгоритм состоит из пяти шагов и использует вспомогательный

массив

z

,

z

i

2

[0

,

1]

(рис. 3).

Шаг 1. Инициализируем

z

i

=

x

i

для всех

i

.

δ

=

std

(

x

i

)

/

2

,

t

=

OtsuThreshold

(

x

)

.

Шаг 2.

z

i

= 0

для всех

x

i

<

(

t

−

δ

)

.

Шаг 3.

z

i

= 1

для всех

x

i

>

(

t

−

δ

)

.

Шаг 4.

z

i

= (

z

i

−

(

t

−

δ

))

/

2

δ

для всех

(

t

−

δ

)

≤

x

i

≤

(

t

+

δ

)

.

Шаг 5. Устанавливаем

b

i

равным i-му значению диффузирующей

ошибки массива

z

,

используя порог 0,5 и фильтр Флойда–Штейнберга.

На этапе предварительных испытаний проводилось сравнение раз-

личных фильтров диффузии ошибок, включая классические фильтры

диффузии ошибок [4], green noiseњ фильтры [6], и фильтры, специаль-

но созданные для отработки вертикальных, горизонтальных и диаго-

нальных особенностей символов. Наилучшие результаты бинаризации

для последующей сегментации были получены именно при использо-

вании фильтра Флойда–Штейнберга.

Сегментация.

Следующим этапом OCR-алгоритма является сег-

ментация полученного бинаризованного изображения. Как правило,

печатные документы имеют прямоугольную форму. В идеальных слу-

чаях строки текста параллельны или перпендикулярны краям страни-

цы. Однако из-за неточности или трудности в размещении оригиналов

документов в процессе сканирования захваченные края документов

не всегда могут совпадать с краями изображения, что приводит к на-

клону текста на изображении. Поэтому корректное определение угла

наклона и сегментация текста являются необходимыми условиями ка-

чественного распознавания.

В данном разделе описан алгоритм сегментации изображения, спо-

собный сегментировать документы с несколькими областями текста

разного наклона. В его основе лежит построение полигонов (pис. 4)

лексических структур — минимально возможных выпуклых много-

угольников, полностью содержащих символы, слова, параграфы.

ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012

157