ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012
55
Кроме того, в JFA обязательно используется UBM-модель, цель
построения которой охарактеризовать «чужих» дикторов во всех
возможных контекстах. Обучающая база UBM формируется с учетом
максимально большого объема речевых данных, сбалансированных
по гендерному типу, каналам записи, акустическим условиям и т. д.
Как правило, в настоящее время применяется стандартная процедура
построения UBM-модели, основанная на оценке максимального
правдоподобия (Maximum Likelihood, ML) – ML-метод [13].
Задача ML-метода – нахождение по заданному числу
Т
обучаю-
щих векторов данных
X
= {
x
1
,
x
2
, …,
x
T
}
параметров модели
λ
,
макси-
мизирующих функцию правдоподобия модели:
1
(
| )
(
| ).
T
t
t
p X
p x
=
=
∑
λ
λ
Поскольку функции параметров модели
λ
не линейны и напря-
мую максимизировать функцию правдоподобия невозможно, то ис-
пользуются приближенные значения оценок максимального правдо-
подобия, полученные с помощью EM-алгоритма (Expectation–
Maximization). Существуют различные варианты этого алгоритма, где
одновременно обучается набор из 512, 1024 или 2048 гауссовых ком-
понент, и заканчивая более сложной процедурой с последовательным
расщеплением компонент в процессе обучения.
С увеличением объемов речевых баз данных, наиболее важной
проблемой при построении UBM-модели является поиск точного со-
ответствия числа компонент UBM-модели количеству обучающего
материала. При обучении по оценке максимального правдоподобия
делается попытка определить параметры всех гауссоид. При неболь-
шом количестве обучающего материала происходит эффект переобу-
чения GMM-модели и снижение эффективности системы идентифика-
ции дикторов по независимой тестовой выборке, демонстрируется ее
плохая обобщающая способность. При большом количестве обучаю-
щего материала выбранное число компонент UBM-модели может быть
меньше оптимального их числа, разрешенного объемом обучающей
базы данных, при котором система идентификации могла бы показать
лучшую эффективность. Возникает вопрос определения оптимального
количества компонент UBM-модели для имеющегося обучающего ре-
чевого материала.
Стандартный ответ на вопрос – использование кроссвалидацион-
ного подхода, в котором сначала проводится обучение последователь-
ного ряда UBM-моделей с различным числом компонент, а затем –
тестирование по независимой выборке систем верификации с приме-
нением каждой из UBM-моделей [14]. Такой подход в вычислитель-
ном отношении очень сложен и длителен по времени.