ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012
54
Главная проблема при решении задачи текстонезависимого распо-
знавания диктора – рассогласование, вызванное изменчивостью сессий
записи голоса отдельного диктора. Причинами этого рассогласования
могут быть шумы окружающей среды при записи, искажения в кана-
лах записи и передачи речевого сигнала, а также изменчивость голоса
самого диктора. Учет эффектов канала – самый значимый фактор из
перечисленных выше. Для решения указанной проблемы традицион-
ным стало применение совместного факторного анализа (Joint Factor
Analysis, JFA), который позволяет эффективно расщеплять диктор-
скую и канальную информацию в отдельном произнесении диктора
[12].
В свою очередь, это дает возможность строить канало-
независимые GMM-модели речи диктора и подавлять эффекты канала
в тестовом произнесении.
Модели голоса в JFA имеет вид
,
M m Ux Vy Dz
= + + +
где
M
–
супервектор GMM-модели фонограммы;
m
–
супервектор
универсальной фоновой модели (Universal Background Model, UBM);
U
,
V
,
D
–
матрицы собственных каналов (Eigen Channel), собствен-
ных голосов (Eigen Voice), остаточной изменчивости соответственно;
x
,
y
,
z
–
скрытые векторы.
Следует отметить, что для построения полной JFA-модели требу-
ется большой объем обучающей базы данных. Для оценки влияния
объема такой базы на надежность идентификации дикторов по голосу
были проведены эксперименты (табл. 2). Система идентификации
обучалась на признаках MFCC 39 (13 + 13Δ´ + 13Δ´´, где Δ´, Δ´´ –
первая и вторая производная признаков MFCC), без учета эффектов
канала, на мужском корпусе речевых данных. Из результатов ясно,
что ошибка идентификации уменьшается с увеличением объема обу-
чающей базы данных.
Таблица 2
Значения надежности идентификации диктора по голосу
в зависимости от объема обучающей базы данных
Объем обучающей
базы данных
(
количество файлов)
Число компонент
GMM-модели
Размер матрицы соб-
ственных голосов
EER, %
515
256
30
15,6
1110
512
100
7,8
17 000
2000
300
5,8