ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012
56
В ЦРТ было предложено при построении UBM-моделей исполь-
зовать вариационный байесовский анализ (Variational Bayesian Analy-
sis, VBA), который имеет следующие преимущества [15]:
высокая устойчивость системы идентификации дикторов при
переходе на другой тестовый материал за счет решения проблемы
переобучения;
высокая эффективность системы идентификации дикторов пу-
тем предотвращения выбора заведомо заниженных размеров моделей
для используемого обучающего материала.
Результаты тестирования VBA на системе, представляющей со-
бой классическую GMM-модель (Baseline-GMM), где модели речи
диктора получаются путем адаптации UBM-модели по принципу
максимума апостериорной вероятности (Maximum a Posteriori, MAP)
приведены ниже [11]. Для оценки меры близости моделей использо-
валось отношение правдоподобия. В результате VBA-обучения
UBM-модели сохранено 708 компонент для малого объема обучаю-
щей базы данных и 3062 компоненты для большого объема обучаю-
щей базы данных.
Значения EER, %, при различных вариантах обучения UBM-модели
ML-обучение UBM-модели …………… 6,38 (
M
= 1024) 15,55 (
M
= 2048)
VBA-обучение UBM-модели ………… 5,89 (
M
= 708) 14,24 (
M
= 3062)
Для малого объема базы данных при ML-обучении UBM-модели
применяется большее число гауссовых распределений, чем это необ-
ходимо для описания обучающей выборки. Завышенное число гаус-
совых распределений приводит к переобучению UBM-модели на
данных, что ухудшает результаты тестирования на другой базе. Для
большого объема обучающей базы, сопоставимого с объемом обуча-
ющего материала современных систем идентификации диктора, ока-
залось, что обычно используемое число гауссовых распределений
(2048)
заведомо занижено. Тем самым, потенциал систем идентифи-
кации снижается на 8…10 % относительно результатов с VBA-
обучением UBM-модели.
Кроме порождающего GMM-метода, в системах ЦРТ использует-
ся дискриминантный метод распознавания речи диктора – машины
опорных векторов (Support Vector Machine, SVM). Исследования ЦРТ
показали, что гибридная SVM–GMM-система обладает лучшей эф-
фективностью, чем отдельно взятые системы, как по параметрам
точности, так и по параметрам быстродействия. Применение SVM-
метода делает гибридную GMM–SVM-систему более робастной к
различным шумам, а также к межсессионной и внутридикторской ва-
риативности.