голосовых моделей
ˆ
S
= arg max
1
m
k
p
(
X
|
λ
m
)
.
После выбора наиболее соответствующей голосовой модели
λ
m
решается задача верификации:
p
(
X
|
λ
m
)
p
(
X
|
λ
UBM
)
(
θ
X
соответствует модели
λ
m
;
< θ
X
соответствует НЕ модели
λ
m
,
где порог
θ
= 1
,
65
был выбран в ходе экспериментов как оптималь-
ный с точки зрения максимальной точности идентификации. Приме-
чательно, что значение этого оптимального порога изменялось весьма
незначительно при различных способах проведения эксперимента.
Экспериментальные результаты
. Рассматриваемый метод голо-
совой идентификации был полностью реализован в среде Mathworks
Matlab R2010. В качестве материалов для обучения и тестирования
системы были использованы данные конкурсов систем распознавания
дикторов NIST SRE в 2004, 2006 и 2008 гг. [7], из которых были ото-
браны фонограммы дикторов, имеющих по 6–10 голосовых записей
длительностью около 16 с (табл. 1). Фонограммы содержат большое
число разнообразных фраз, произносимых на разных языках в усло-
виях различной акустической обстановки (помещение, улица и т.п.).
Таблица 1
Используемая база фонограмм
Гендерный
состав
Общее число отобран-
ных участников и их
фонограммы
Каналы
телефон–
телефон
микрофон–
микрофон
телефон–
микрофон
М
Дикторы
473
95
92 тел. + 95 мик.
Фонограммы
3928
910
1374
Ж
Дикторы
626
122 121 тел. + 122 мик.
Фонограммы
5153
1173
1829
Были проведены всевозможные способы обучения универсальной
фоновой модели (UBM), формирование голосовых моделей всех дик-
торов и тестирование системы идентификации на этих данных. Фо-
нограммы для обучения и тестирования случайно выбирались из до-
ступных таким образом, чтобы фонограммы, использовавшиеся для
построения голосовых моделей, не участвовали в тестировании.
Для обучения универсальной фоновой модели (UBM) дополни-
тельно были выбраны фонограммы из [7], не используемые ни для
формирования голосовых моделей, ни для тестирования (табл. 2).
176
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012
1,2,3,4,5,6,7,8 10,11,12