зована для построения реальных систем голосовой верификации и
идентификации. Причиной тому служат очень высокие требования к
качеству голосового сигнала и сильная зависимость результатов от
вида обучающего материала (на основе которого составляется база
голосовых моделей и фоновая модель), и условий регистрации голо-
сового сигнала. Также недостатком являются относительно большие
временные затраты на формирование вектора голосовых признаков
[1–4].
Таким образом, в настоящее время существует потребность в ка-
чественном методе выделения голосовых признаков человека, способ-
ном работать с голосовыми материалами среднего качества (например
запись телефонного разговора) и менее чувствительном к изменению
условий регистрации голосового сигнала.
Предлагаемый метод.
Суть метода голосовой идентификации за-
ключается в использовании разработанных автором способов выделе-
ния вектора голосовых признаков и построения на его основе модели
голоса человека. Вектор голосовых признаков представляет собой век-
тор из 12 первых коэффициентов линейного предсказания поведения
автокорреляционной функции кепстра голосового сигнала.
Вычислению кепстра предшествует специфическая фильтрация го-
лосового сигнала в диапазоне высоты звука (обычно фильтрация звука
осуществляется в частотном диапазоне), которая позволяет отсечь эле-
менты частотного разложения, слабо влияющие на голосовые харак-
теристики, и, наоборот, подчеркнуть области, содержащие наиболее
важную информацию, характеризующую индивидуальные голосовые
особенности диктора.
На основании полученных векторов-признаков строятся голо-
совые модели путем выбора максимально-правдоподобной 1024-
компонентной GMM, а также универсальная фоновая 1024-компонент-
ная модель (UBM).
Идентификация личности (выбор голосовой модели, наиболее со-
ответствующей заданному голосовому сигналу) осуществляется ме-
тодом максимизации апостериорной вероятности. Верификация пред-
ставляется как задача бинарной классификации и выполняется путем
одновременной проверки гипотез принадлежности голосового сигна-
ла к заданной голосовой модели и отсутствия его принадлежности к
универсальной фоновой модели.
В реализации метода используются голосовые сигналы с часто-
той дискретизации
f
D
= 8 000
Гц (сопоставимо с качеством записи
мобильного телефона) и максимальной длительностью 20 с.
Формирование вектора признаков.
Как уже было отмечено,
вектор голосовых признаков строится из 12 первых коэффициентов
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012
171