ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012
57
Разработанный в ЦРТ вариант гибридной GMM–JFA–SVM-
системы, где SVM-метод используется не в пространстве акустиче-
ских векторов, а в модельном пространстве супервекторов средних
GMM-моделей, является одним из самых эффективных методов в
настоящее время. По данным Национального института стандартиза-
ции США, эта система вошла в число лидеров среди систем иденти-
фикации дикторов NIST SRE 2010 [1]. Следует отметить, что в такой
системе для SVM-метода использовались различные линейные и не-
линейные ядра, а также их линейные комбинации.
Несмотря на преимущества GMM–JFA–SVM-системы, она об-
ладает одним недостатком – большим объемом модели голоса
(50…100
кбайт), что неприемлемо при построении крупномасштаб-
ных систем биометрической идентификации.
Решить эту проблему можно с помощью низкоразмерных векто-
ров признаков. Так, в одной из версий JFA для генерации векторов
признаков используется матрица полной изменчивости (Total Varia-
bility, TV) – TV-метод [16].
Модель голоса в TV-методе имеет вид
,
M m Tw
= +
где
w
низкоразмерный вектор;
Т
матрица полной изменчивости.
TV-метод – наиболее перспективный метод идентификации дик-
торов, обеспечивающий изящный способ редуцирования высокораз-
мерных входных данных к низкоразмерному вектору признаков, со-
храняя большую часть полезной информации. Это снижает объем
модели голоса диктора до 2…3 кбайт, что уже приемлемо при по-
строении крупномасштабных систем биометрической идентифика-
ции. Отметим также, что GMM–TV–SVM-система позволяет полу-
чить хорошие характеристики даже для коротких произнесений.
Мультиалгоритмическое и мультимодальное смешивание.
Для повышения надежности биометрической идентификации дикто-
ров в ряде систем ЦРТ, вместе с мультимодальным смешиванием,
реализовано мультиалгоритмическое смешивание с принятием обоб-
щенного решения по нескольким или всем методам идентификации
личности по голосу. Учитывая разное поведение методов в условиях,
зависящих от типов каналов, длительности речевых сигналов, уров-
ней шума и реверберации в речевых сигналах, при мультиалгоритми-
ческом смешивании получаем значительно более высокую и ста-
бильную надежность.
Построение обобщенного решения реализуется по схеме, приве-
денной на рис. 5. Далее описан алгоритм получения обобщенного
решения бимодальной системы ЦРТ. Рассматриваются гипотезы:
H
0
:
сравнение биометрических характеристик одного человека;
H
1
:
сравнение биометрических характеристик разных людей.