Рис. 4. Фрагмент текста, сегментированного методом выпуклых полигонов
Для того чтобы обнаружить блоки текста, используется функция
группировки компонентов, разделяющая части документа на группы
по критериям схожести дистанций и размеров. Далее вычисляются
выпуклые полигоны обнаруженных групп, по углам наклона граней
которых определяется доминантный угол наклона блока текста. Этот
метод хорошо работает даже при наличии сильных шумов и на доку-
ментах с большим количеством графической информации. Устойчи-
вость к шумам объясняется следующими особенностями:
1) группирующая функция способна разделять компоненты различ-
ных размеров и форм;
2) грани выпуклых полигонов способны предопределять направле-
ние текста в блоке.
Предложенный метод является адаптивным и демонстрирует кон-
курентоспособную точность сегментации в сочетании с высокой ско-
ростью работы.
Группировка компонентов.
Пусть известен компонент
c
1
области
s
1
и компонент
c
2
области
s
2
. Если евклидово расстояние между цен-
троидами компонентов
c
1
и
c
2
меньше либо равно значению группи-
рующей функции
f
(
s
1
, s
2
)
, компоненты считаются
непосредственно
связанными
.
Связанная группа
— это множество компонентов, для ка-
ждой пары которых всегда существует хотя бы одна непосредственная
связь:
f
(
s
1
, s
2
) =
p
ks
1
s
2
/
(
s
1
+
s
2
)
,
(1)
где
k
— скалярный параметр, который может изменяться в процессе
построения непосредственных связей между компонентами.
Группирующая функция (1) имеет несколько полезных свойств:
является мерой расстояния; симметрична относительно компонентов
c
1
и
c
2
; инвариантна к повороту; инвариантна к масштабу; существует
возможность выбора площадей компонентов в уравнении (1), таких
как общее число пикселей, площадь выпуклого полигона, площадь
ограничивающего прямоугольника; вероятность объединения симво-
лов с графическими компонентами крайне мала ввиду существенной
несхожести их размеров, благодаря чему метод устойчив к шумам.
Далее приведен псевдокод описанного алгоритма.
Пусть
CC
— массив компонентов размера
L
;
Пусть
CC
[
p
]
— отдельный компонент,
p
2
[0
, L
)
;
158
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012