Одной из наиболее актуальных задач является создание технологий
идентификации и верификации личности по голосу. Такие технологии
могут быть использованы для построения системы контроля физиче-
ского доступа на определенную территорию, систем контроля доступа
к защищенной информации, для криминалистических исследований
(контроль телефонного трафика операторов связи и автоматическое
обнаружение представляющего интерес лица по голосу).
Применение технологии в совокупности с другими методами обра-
ботки речевой информации возможно, например, для решения задачи
автоматизации работы call-центров (учет звонков с привязкой к кли-
ентской базе, автоматический анализ и статистика запросов).
В настоящей статье рассмотрен разработанный автором языко- и
текстонезависимый метод голосовой идентификации личности, а так-
же проведен анализ точности его работы на большом количестве ре-
альных голосовых данных, различающихся языками, условиями реги-
страции сигналов и гендерной принадлежностью личности.
Отличительными особенностями метода по сравнению с анало-
гичными технологиями западных разработчиков являются невысокие
требования к качеству голосового сигнала и умеренная зависимость
точности идентификации личности от условий регистрации голосово-
го сигнала, которая варьируется в пределах
±
5% при широком изме-
нении условий регистрации. Для сравнения, точность большинства со-
временных технологий голосовой идентификации варьируется в пре-
делах
±
(10–15) % при аналогичном изменении условий регистрации
голосового сигнала [1].
Под условиями регистрации голосового сигнала понимается сово-
купность устройства регистрации сигнала, акустической обстановки
и формата хранения голосового сигнала.
Обзор существующих методов.
Современные системы голосовой
идентификации и верификации работают в двух режимах.
Режим обучения
. Выделяются характерные признаки голоса че-
ловека, формируется его голосовая модель (голосовой отпечаток) на
основе этих признаков и выполняется сохранение модели в базе дан-
ных.
Рабочий режим
. Выделяются характерные признаки голосового
сигнала человека и выполняется поиск в базе данных голосовой моде-
ли, соответствующей этим признакам (идентификация личности), или
проверка принадлежности признаков к конкретной заданной голосо-
вой модели (верификация личности).
Функциональная схема работы таких систем представлена на
рис. 2.
Кроме этого, в режиме обучения также составляется так назы-
ваемая универсальная фоновая модель (Universal Background Model,
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012
169