К вопросу о векторизации графических спектрограмм
1
УДК 004.934
К вопросу о векторизации графических спектрограмм
© А.М. Бонч-Бруевич, С.Б. Козлачков
МГТУ им. Н.Э. Баумана, Москва, 105005, Россия
Для повышения точности оценки параметров математических моделей речевого
сигнала предлагается использовать методы контурного анализа изображений
применительно к графическим спектрограммам. Использование векторизации
обеспечивает возможность выделения индивидуальных признаков речи на основе
статистического анализа характеристик контуров на спектрограмме. Каждый
из выделенных контуров является незамкнутой линией, содержащей информацию
об изменении мгновенной частоты и амплитуды компонента речевого сигнала
(речевого вокализма). При этом учитываются следующие особенности речевого
сигнала: средняя скорость изменения частоты основного тона, минимальное рас-
стояние между отдельными гармониками, взаимная корреляция уровня сигнала для
соседних следов фонообъектов. В настоящей работе рассмотрен подход к форми-
рованию массива данных, описывающего графическую спектрограмму речевого
сигнала в векторном формате. Показано, что представление графической спек-
трограммы как массива отдельных контуров дает новые возможности в области
анализа, синтеза, обработки и классификации речевых сигналов.
Ключевые слова:
спектрограмма, векторизация, контурный анализ, шумоочистка,
обработка сигналов.
При оценке защищенности речевой информации, обработке аку-
стических сигналов или идентификации диктора по голосу необхо-
димо выделить информационные признаки в речевом сигнале. Как
правило, для выделения используются следующие признаки: частот-
ные (спектр, частота основного тона, спектральная плотность мощ-
ности); временные (огибающая, частота переходов через ноль); ча-
стотно-временные (графическая спектрограмма в виде полутонового
изображения). Также применяются различного рода математические
модели сигналов и помех. Использование математических моделей в
ряде случаев оказывается эффективнее, чем непосредственный ана-
лиз отсчетов сигнала.
Как показано в [1], речевой сигнал обладает сложной полимодуля-
ционной структурой, что затрудняет создание адекватной модели. Су-
ществующие математические модели речевого сигнала основаны на
описании речевого тракта человека дифференциальными уравнениями,
на совокупности мгновенных, экстремальных или усредненных харак-
теристик речи, полученных различными методами анализа, на линей-
ном или нелинейном предсказании, а также на полигармонической ап-