компонентная GMM. Основная идея аппарата GMM состоит в пред-
ставлении плотности распределения вектора голосовых признаков
X
в виде взвешенной суммы гауссовых плотностей распределения:
p
(
X
) =
M
X
m
=1
α
m
p
m
(
X, μ
m
, D
m
)
,
где
p
m
(
X, μ, D
)
— гауссова плотность распределения с математи-
ческим ожиданием
μ
и ковариационной матрицей
D
, имеющей вид
p
m
(
X, μ, D
) =
1
√
2
π
det
D
exp(
−
0
,
5(
X
−
μ
)
т
D
−
1
(
X
−
μ
))
.
Фактически представление плотности
p
(
X
)
в виде суммы
M
гаус-
сианов соответствует разбиению множества голосовых параметров
на
M
подклассов (как уже было отмечено, в предложенном методе
M
= 1024
).
Также примечательно, что для GMM не важен порядок следования
друг за другом определенных голосовых сигналов, поскольку данный
аппарат работает с накопленными статистиками параметров.
Задача верификации пользователя по голосу представляет собой
бинарную классификацию. Формально задача представляет собой про-
верку двух гипотез:
H
0
— фразу
Y
произнес человек
S
;
H
1
— фразу
Y
произнес НЕ человек
S
.
Оптимальной проверкой для выбора одной из двух гипотез являет-
ся отношение правдоподобия. При этом процедура принятия решения
выглядит следующим образом:
p
(
Y
|
H
0
)
p
(
Y
|
H
1
)
(
≥
θ
→
принимаем
H
0
;
< θ
→
принимаем
H
1
,
где
p
(
Y
|
H
)
— функция плотности вероятности для гипотезы
H
, оце-
ненная на речевом сегменте
Y
, а
θ
— порог принятия решения. Ма-
тематически гипотеза
H
может быть определена моделью
λ
, которая
характеризует диктора
S
в пространстве признаков.
Для каждого человека на основании записей его речи строится
голосовая модель. Для гипотезы
H
1
строится универсальная фоновая
модель, характеризующая всех возможных говорящих людей во всех
возможных контекстах. Данная модель обучается на большом числе
голосовых данных, сбалансированных по гендерному типу, а также по
оборудованию и условиям регистрации голосового сигнала.
Таким образом, GMM должны быть независимо обучены для ка-
ждого человека, т.е. для каждого человека должен быть найден набор
параметров
λ
=
{
α
i
, μ
i
, D
i
}
, i
= 1
. . . M
(рис. 4). Исходными данными
174
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012