ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012
52
образец соответствующей помехи, взятый из Интернета, компакт-
диска и т. д.;
разделения речи дикторов в голосовом коктейле по частоте ос-
новного тона;
разметки выделенных участков речевого сигнала по принад-
лежности различным дикторам (определение кто и когда говорит),
так называемая диаризация речи дикторов.
Задача диаризации речи дикторов имеет ряд ограничений: в
большинстве случаев число дикторов в фонограмме неизвестно; от-
сутствуют голосовые модели дикторов; различаются объем речи, по-
рядок и частота смены дикторов. В настоящее время были достигну-
ты показатели надежности (Diarization Error Rate, DER):
известных коммерческих решений – 8…12 %;
решений ЦРТ – 5…6 %;
наилучших достижений – 2…3 %.
Достигнутая скорость вычислений решений ЦРТ составляет не
менее 30 RT (CPU Intel i5, частота 2,8 ГГц, одноядерный процессор),
что в 2–3 раза превышает значения известных скоростей. Результаты
получены за счет использования гибридной дискриминационно-
порождающей EV–HMM(GMMs)-системы диаризации, которая пре-
взошла по качеству диаризации наилучшую на текущий момент EV–
VBA-систему в случае коротких диалогов [6, 7].
Автоматическое выделение биометрических признаков голоса
и речи.
В биометрических системах ЦРТ внедрены методы автомати-
ческого выделения традиционно используемых экспертами акустиче-
ских признаков: частоты основного тона диктора (частоты смыкания –
размыкания голосовых связок) и формантные частоты (резонансные
частоты голосового тракта) [8, 9]. Для использования в статистических
методах идентификации реализовано автоматическое выделение раз-
личных кепстральных признаков: MFCC, линейных по частоте кеп-
стральных коэффициентов (Linear Frequency Cepstral Coefficients,
LFCC), кепстральных коэффициентов линейного предсказания (Linear
Prediction Cepstral Coefficients, LPCC) и т. д. [10].
В статистических методах идентификации модель голоса диктора
представляет собой аппроксимацию распределения используемых
признаков смесью гауссовых распределений (GMM-модель).
Рассмотрим построение GMM-модели [11]. Для
D
-
мерного век-
тора признаков
x
функция плотности распределения имеет вид
1
(
| )
( ),
M
i i
i
p x
p x
=
=
λ
ω
где
M
количество компонент смеси;
ω
i
вес
i
-
й компоненты смеси;
p
i
(
x
) –
плотность распределения
i
-
й компоненты смеси.