Рис. 3. Одна итерация
должно гарантированно соблю-
даться. Однако оно не работает в
таком виде применительно к бина-
ризации для OCR-алгоритмов, так
как значения изображения сохра-
няются, что приводит к сильно-
му зашумлению фона, если значе-
ние фона отлично от нуля. Вме-
сто этого в используемой бина-
ризации MarginED диффундируют
только ошибки или неопределенные пиксели. Пиксели, определенные
точнее, бинаризуются полностью.
Алгоритм состоит из пяти шагов и использует вспомогательный
массив
z
,
z
i
2
[0
,
1]
(рис. 3).
Шаг 1. Инициализируем
z
i
=
x
i
для всех
i
.
δ
=
std
(
x
i
)
/
2
,
t
=
OtsuThreshold
(
x
)
.
Шаг 2.
z
i
= 0
для всех
x
i
<
(
t
δ
)
.
Шаг 3.
z
i
= 1
для всех
x
i
>
(
t
δ
)
.
Шаг 4.
z
i
= (
z
i
(
t
δ
))
/
2
δ
для всех
(
t
δ
)
x
i
(
t
+
δ
)
.
Шаг 5. Устанавливаем
b
i
равным i-му значению диффузирующей
ошибки массива
z
,
используя порог 0,5 и фильтр Флойда–Штейнберга.
На этапе предварительных испытаний проводилось сравнение раз-
личных фильтров диффузии ошибок, включая классические фильтры
диффузии ошибок [4], green noiseњ фильтры [6], и фильтры, специаль-
но созданные для отработки вертикальных, горизонтальных и диаго-
нальных особенностей символов. Наилучшие результаты бинаризации
для последующей сегментации были получены именно при использо-
вании фильтра Флойда–Штейнберга.
Сегментация.
Следующим этапом OCR-алгоритма является сег-
ментация полученного бинаризованного изображения. Как правило,
печатные документы имеют прямоугольную форму. В идеальных слу-
чаях строки текста параллельны или перпендикулярны краям страни-
цы. Однако из-за неточности или трудности в размещении оригиналов
документов в процессе сканирования захваченные края документов
не всегда могут совпадать с краями изображения, что приводит к на-
клону текста на изображении. Поэтому корректное определение угла
наклона и сегментация текста являются необходимыми условиями ка-
чественного распознавания.
В данном разделе описан алгоритм сегментации изображения, спо-
собный сегментировать документы с несколькими областями текста
разного наклона. В его основе лежит построение полигонов (pис. 4)
лексических структур — минимально возможных выпуклых много-
угольников, полностью содержащих символы, слова, параграфы.
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012
157
1,2,3,4 6,7,8,9,10,11,12,13,14,...15