В.И. Кузовлев, А.О. Орлов
2
от методов, однозначно определяющих принадлежность объектов к
аномалиям.
При использовании метода поиска выбросов возникают две про-
блемы. Во-первых, поскольку метод дает числовую оценку степени
аномальности объектов, необходимо вводить некоторые дополни-
тельные критерии, идентифицирующие выбросы. В данном случае
удобно использовать механизмы теории нечетких множеств. Этапом
дефаззификации при этом может являться переход от значения сте-
пени аномальности объекта данных к принятию решения о принад-
лежности его к выбросам.
Во-вторых, поскольку метод
LOF
основан на широко известном
методе «
k
ближайших соседей», возникает задача выбора параметра
k
. В [4] даются общие рекомендации по выбору параметра
k
, однако
авторы предлагают делать выбор отдельно для каждой задачи с уче-
том специфики анализируемых данных, их количества, прогнозируе-
мого количества возможных выбросов и т. д.
В статье предложена методика формирования правил нечеткого
вывода на основе параметра
k
при использовании показателя локаль-
ной аномальности для идентификации выбросов в данных.
Модель анализа.
Все объекты генеральной совокупности
G
имеют
одинаковый набор атрибутов
1
, ...,
n
A A A
. Каждый атрибут имеет
некоторое количество уникальных значений
1 2
,
, ...,
i
i
i
im
D A x x
x
.
В построенной модели объектами анализа являются значения от-
дельно взятого атрибута. Вообще, атрибуты могут иметь числовые
или категориальные значения. В данной статье рассматриваются ка-
тегориальные атрибуты. Они представляют больший интерес по
сравнению с числовыми, поскольку заранее неизвестна их принад-
лежность каким-либо шкалам. Поэтому они требуют дополнитель-
ных процедур расчета расстояний между собой.
Для расчета расстояний между значениями категориального ат-
рибута использовалась формула, предложенная в [4]:
dist
,
,
n
n i
n j
A i
j
n i
n j
f x f x
x x
f x f x
(1)
где
n
A
— категориальный атрибут, принимающий значения
1
,...,
n
p
D A x x
;
n
f x
— количество объектов генеральной сово-
купности, атрибут
n
A
которых принимает значение
x
.
Формула (1) называется формулой инверсной гравитации. Если
представить объекты анализа как шарообразные тела, то частота
n
f x
появления значения
x
атрибута
n
A
среди объектов генераль-