вестно, возникает задача автоматического выбора числа компонентов
смеси по данным. Эта задача не может быть решена простым включе-
нием
k
в набор параметров
Ξ
с дальнейшим поиском параметров по
максимуму правдоподобия.
Действительно, чем больше значение
k
, тем больше значение прав-
доподобия, так как более гибкая модель может лучше объяснить име-
ющиеся данные. Выбор числа кластеров является частным случаем
проблемы автоматического выбора модели в задачах машинного обу-
чения, заключающейся в наличии ряда параметров, которые не могут
быть автоматически определены в рамках классических алгоритмов
обучения. Существует довольно много методов определения параме-
тров модели: скользящий контроль, принцип минимальной длины опи-
сания (MDL), информационный критерий Акаике, информационный
критерий Байеса.
В работе [19] наряду с приведенными методами дано описание ал-
горитма автоматического определения числа компонентов ARD EM,
основанного на методе релевантных векторов. Идея алгоритма состо-
ит в использовании на начальном этапе заведомо избыточного числа
компонентов смеси с дальнейшим определением релевантных компо-
нентов с помощью максимизации обоснованности. Подробное описа-
ние вывода алгоритма и примера его функционирования приведены в
работе [19]. Ключевым моментом являются иные, чем в классическом
EM-алгоритме, формулы пересчета весов компонентов:
w
i
=
N
X
n
=1
w
i
p
(
x
n
|
θ
i
)
K
X
k
=1
w
k
p
(
x
n
|
θ
k
)
w
2
i
α
i
m
K
X
k
=1
w
2
k
α
k
,
где
K
=
N
— начальное число компонентов;
α
— априорное распре-
деление;
α
i
, i
= 1
. . . K
, — параметры регуляризации.
В работе [19] алгоритм ARD EM рассматривается на примере сме-
си нормальных распределений. Из результатов экспериментов класте-
ризация ARD EM оказывается ближе к истинной, чем у других мето-
дов. При этом она практически не уступает по качеству EM-алгоритму
с истинным числом кластеров.
Приведем результаты аппроксимации плотности распределения чи-
сла пакетов, поступивших за единицу времени, для рассматриваемой
реализации трафика.
ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012
145
1...,3,4,5,6,7,8,9,10,11,12 14,15,16,17,18,19,20