ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012
50
В ЦРТ создан VAD-алгоритм (модификация алгоритма на осно-
ве статистик основного тона [3]), который выделяет вокализованные
участки речи [5]. Главная идея выделения указанных участков речи
заключается в использовании гласных и назализованных согласных.
С одной стороны, недостатком является потеря некоторых соглас-
ных, с другой, – взрывные согласные и аффрикаты обладают мень-
шей идентификационной значимостью. Тогда можно предположить,
что потеря некоторой части незначимого речевого материала будет
компенсироваться качественным удалением неречевых участков.
Это позволяет, например, снизить зависимость качества идентифи-
кации диктора от искажений канала в паузах. В основе разработан-
ного VAD-алгоритма лежит спектральный анализ речевого сигнала.
На каждом кадре спектрограммы осуществляется поиск положений
максимумов, соответствующих гармоникам основного тона, по ко-
торым оценивается значение его частоты. При этом в сигнале воз-
можно отсутствие нижних гармоник основного тона, что характерно
для телефонного канала с полосой частот 300…3400 Гц. Работа
VAD-алгоритма проверяется наложением полученных кривых ос-
новного тона на спектрограмму (рис. 2). Таким образом, можно вы-
явить следующие преимущества использования VAD-алгоритма на
основе анализа частоты основного тона: выделение речевого сигна-
ла происходит, в том числе на относительно зашумленных участках
(
соотношение сигнал – шум 10 дБ и ниже); непрерывность значения
основного тона и принадлежность этого значения области диапазо-
ну значений частоты, типичных для речи.
Частота, Гц
Время, с
Рис. 2. Наложение кривых основного тона на спектрограмму
Экспериментально установлено, что VAD-алгоритм обеспечивает
снижение EER системы идентификации на кепстральных признаках в
2
раза (с 12 % для энергетического детектора до 6 % для VAD-
алгоритма). При использовании в качестве информационных акусти-