Стр. 4 - Г.П. Можаров, Р.С. Чеботарев - Текстонезависимый метод идентификации человека по его голосу

зована для построения реальных систем голосовой верификации и

идентификации. Причиной тому служат очень высокие требования к

качеству голосового сигнала и сильная зависимость результатов от

вида обучающего материала (на основе которого составляется база

голосовых моделей и фоновая модель), и условий регистрации голо-

сового сигнала. Также недостатком являются относительно большие

временные затраты на формирование вектора голосовых признаков

[1–4].

Таким образом, в настоящее время существует потребность в ка-

чественном методе выделения голосовых признаков человека, способ-

ном работать с голосовыми материалами среднего качества (например

запись телефонного разговора) и менее чувствительном к изменению

условий регистрации голосового сигнала.

Предлагаемый метод.

Суть метода голосовой идентификации за-

ключается в использовании разработанных автором способов выделе-

ния вектора голосовых признаков и построения на его основе модели

голоса человека. Вектор голосовых признаков представляет собой век-

тор из 12 первых коэффициентов линейного предсказания поведения

автокорреляционной функции кепстра голосового сигнала.

Вычислению кепстра предшествует специфическая фильтрация го-

лосового сигнала в диапазоне высоты звука (обычно фильтрация звука

осуществляется в частотном диапазоне), которая позволяет отсечь эле-

менты частотного разложения, слабо влияющие на голосовые харак-

теристики, и, наоборот, подчеркнуть области, содержащие наиболее

важную информацию, характеризующую индивидуальные голосовые

особенности диктора.

На основании полученных векторов-признаков строятся голо-

совые модели путем выбора максимально-правдоподобной 1024-

компонентной GMM, а также универсальная фоновая 1024-компонент-

ная модель (UBM).

Идентификация личности (выбор голосовой модели, наиболее со-

ответствующей заданному голосовому сигналу) осуществляется ме-

тодом максимизации апостериорной вероятности. Верификация пред-

ставляется как задача бинарной классификации и выполняется путем

одновременной проверки гипотез принадлежности голосового сигна-

ла к заданной голосовой модели и отсутствия его принадлежности к

универсальной фоновой модели.

В реализации метода используются голосовые сигналы с часто-

той дискретизации

f

D

= 8 000

Гц (сопоставимо с качеством записи

мобильного телефона) и максимальной длительностью 20 с.

Формирование вектора признаков.

Как уже было отмечено,

вектор голосовых признаков строится из 12 первых коэффициентов

ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012

171