Рис. 4. Принцип построения голосовой модели на основе GMM
для обучения являются векторы голосовых признаков
X
=
{
c
1
, . . . c
12
}
.
Обучение GMM осуществляется по алгоритму максимального прав-
доподобия (Expectation-Maximization, EM). Правдоподобие модели
λ
на последовательности обучающих векторов
T
=
{
X
1
, . . . X
T
}
может
быть оценено как
p
(
T
|
λ
) =
T
Y
t
=1
p
(
X
t
|
λ
)
.
Идея алгоритма максимального правдоподобия заключается в по-
следовательном изменении параметров модели
λ
n
λ
n
+1
таким обра-
зом, чтобы
p
(
T
|
λ
n
+1
)
p
(
T
|
λ
n
)
до тех пор, пока не будет достиг-
нут порог сходимости, или пока алгоритм не будет остановлен. В рас-
сматриваемой методике оценка максимального правдоподобия прово-
дится по алгоритму Баума–Уэлша, который традиционно используется
для нахождения неизвестных параметров скрытых марковских моде-
лей [6] (рис. 4).
Схожим образом формируется фоновая модель
λ
UBM
, за исключе-
нием того, что последовательность обучающих векторов
T
составля-
ется из всех возможных векторов голосовых признаков
X
.
Идентификация и верификация.
Группа людей
G
=
{
S
1
, . . . S
k
}
в системе голосовой идентификации представлена своими голосовы-
ми отпечатками в базе GMM
Λ =
{
λ
1
, . . . λ
k
}
. Определение, какой
из моделей в базе
Λ
наиболее соответствует некоторый вектор при-
знаков
X
, происходит путем выбора такой модели
λ
m
, которая имеет
максимум апостериорной вероятности:
ˆ
S
= arg max
1
m
k
Pr
(
λ
m
|
X
) = arg max
1
m
k
p
(
X
|
λ
m
)
Pr
(
λ
m
)
p
(
X
)
,
или с учетом равной вероятности появления каждого человека из базы
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012
175
1,2,3,4,5,6,7 9,10,11,12