Технологии биометрической идентификации личности по голосу и другим модальностям
Опубликовано: 03.11.2012
Авторы: Матвеев Ю.Н.
Опубликовано в выпуске: #3(3)/2012
DOI: 10.18698/2308-6033-2012-3-91
Раздел: Информационные технологии | Рубрика: Биометрические технологии
Рассмотрены достижения в области автоматических методов идентификации личностей по голосу, которые позволили приблизить рабочие характеристики голосовой модальности к характеристикам других биометрических модальностей, в особенности к лицевой. Приведен метод мультиалгоритмического и мультимодального смешивания на уровне оценок при совместном использовании нескольких биометрических характеристик различной модальности. Приведены экспериментальные данные построения обобщенного решения по нескольким модальностям.
Литература
[1] Матвеев Ю.Н., Симончик К.К. Система идентификации дикторов по голосу для конкурса NIST SRE 2010 // ГрафиКон’2010. Тр. 20-й Межд. конф. по компьютерной графике и зрению. СПб: СПбГУ ИТМО, 2010. С. 315–319
[2] Лоханова А.И., Симончик К.К., Козлов А.В. Алгоритм детектирования музыкальных фрагментов в задачах речевой обработки // DSPA– 2010. Тр. 12-й Межд. конф. «Цифровая обработка сигналов и ее применение». М., 2010. Т. 1. С. 210–213
[3] Идентификация дикторов на основе сравнения статистик основного тона голоса / С.Л. Коваль, П.В. Лабутин, Е.В. Малая и др. // Информатизация и информационная безопасность правоохранительных органов. Тр. XV Межд. науч. конф. М.: Академия управления МВД России, 2006. С. 324–327
[4] Comparison of Voice Activity Detection Algorithms for VoIP / R. Prasad et al. // ISCC'02. Proc. 7th IEEE Symposium on Computers and Communications. Washington: IEEE Computer Society, 2002. P. 530
[5] Симончик К.К., Галинина О.С., Капустин А.И. Алгоритм обнаружения речевой активности на основе статистик основного тона в задаче распознавания диктора // Научно-технические ведомости СПбГПУ. 2010. Т. 103. № 4. С. 18–23
[6] Пеховский Т.С., Шулипа А.К. Гибрид генеративных и дискриминативных моделей для задачи диаризации в коротком телефонном диалоге // SPECOM–2011. Proc. 14th Intern. Conf. «Speech and Computer». Kazan, 2011. P. 389–394
[7] Kenny P., Reynolds D., Castaldo F. Diarizationof Telephone Conversations Using Factor Analysis // IEEE Journal of Selected Topics in Signal Processing. 2010. Vol. 4. No. 6. P. 1059–1070
[8] Koval S., Bekasova V., Khitrov M., Raev A. Pitch Detection Reliability Assessment for Responsible Applications // EUROSPEECH'97. Proc. 5th European Conf. on Speech Communication and Technology. Rhodes, 1997. P. 489–492
[9] Koval S.L. Formants Matching as a Robust Method for Forensic Speaker Identification // SPECOM'2006. Proc. XI Intern. Conf. «Speech and Computer». St. Petersburg, 2006. P. 125–128
[10] Капустин А.И., Симончик К.К. Система верификации дикторов по голосу на основе использования СГР–SVM подхода // DSPA–2010. Тр. 12-й Межд. конф. «Цифровая обработка сигналов и ее применение». М., 2010. Т. 1. С. 207–210
[11] Reynolds D.A., Quatieri T.F., Dunn R.B. Speaker Verification Using Adapted Gaussian Mixture Models // Digital Signal Processing. 2000. Vol. 10. No. 1–3. P. 19–41
[12] Kenny P., Boulianne G., Ouellet P., Dumouchel P. Joint Factor Analysis Versus Eigenchannels in Speaker Recognition // IEEE Transactions on Audio, Speech and Language Processing. 2007. Vol. 15. No. 4. P. 1435–1447
[13] Pekhovsky T., Oparin I. Maximum Likelihood Estimations for Session-Independent Speaker Modeling // SPECOM–2009. Proc. XIII Intern. Conf. «Speech and Computer». St.-Petersburg, 2009. P. 267–270
[14] Comparative Evaluation of Maximum a Posteriori Vector Quantization and Gaussian Mixture Models in Speaker Verification / T. Kinnunen, J. Saastamoinen, V. Hautamaki et al. // Pattern Recognition Letters. 2009. Vol. 30. P. 341–347
[15] Pekhovsky T., Lokhanova A.Variational Bayesian Model Selection for GMM–Speaker Verification Using Universal Background Model // INTERSPEECH–2011. Proc. 12th Annual Conf. Florence, 2011. P. 2705–2708
[16] Front-End Factor Analysis for Speaker Verification / N. Dehak, P. Kenny, R. Dehak et al. // IEEE Transactions on Audio, Speech and Language Processing. 2011. Vol. 19. No. 4. P. 788–798