Методика выбора параметров и интерпретации результатов анализа выбросов в данных систем поддержки принятия решений - page 7

Методика выбора параметров и интерпретации результатов анализа …
7
Таблица 2
Результаты анализа атрибутов
Рисунок
Набор
данных
Атрибут
k
LOF
ядра
LOF
ядра
Количество
выбросов
2,
а
Adult
Еducation
5
1,003
0,056
9
2,
б
Adult
Еducation
10
0,999
0,035
4
2,
в
Adult
Мarital-status
2
1,000
0,033
4
2,
г
Adult
Мarital-status
4
1,001
0,078
2
2,
д
Adult
Мarital-status
5
1,000
0,045
1
2,
е
Adult
Оccupation
3
1,000
0,009
9
2,
ж
Adult
Оccupation
7
1,001
0,024
5
2,
з
Adult
Native-country 10
0,997
0,036
18
2,
и
Adult
Native-country 16
0,998
0,022
11
2,
к
Flags
Mainhue
2
1,026
0,120
3
2,
л
Flags
Mainhue
4
1,000
0,053
3
2,
м
Flags
Mainhue
6
1,000
0,052
1
Результаты моделирования подтверждают, что при увеличении
параметра
k
график зависимости среднего показателя локальной ано-
мальности объектов ядра от относительной площади фигуры ядра
 
rel
LOF S
становится более пологим. Это означает, что большее ко-
личество объектов попадает в ядро и меньше точек идентифициру-
ются как выбросы. Таким образом, параметр
k
можно рассматривать
как «регулятор» степени жесткости идентификации выбросов. Чем
выше значение
k
, тем «мягче» анализ и меньше объектов будут отне-
сены к выбросам.
Пусть
 
n
p D A
, количество уникальных значений атрибута
n
A
. При
1
k p
 
график превратится в точку, поскольку в ядро по-
падут все объекты, т. е.
 
n
C D A
.
Основываясь на данных результатов моделирования, можно со-
поставить параметр
k
с количеством значений
p
, например, следую-
щим образом. Введем лингвистическую переменную «анализ выбро-
сов», характеризующуюся следующей пятеркой:
 
"анализ выбросов",
, ,
,
x
T x X G M
 
,
где
  
1
2
3
"жесткий",
"средний",
"мягкий"
T x x
x
x
 
— множе-
ство значений переменной;
1,
1
X p
 
— интервал числовых зна-
чений.
Один из возможных способов определения функции принадлеж-
ности
M
изображен на рис. 3.
1,2,3,4,5,6 8,9,10
Powered by FlippingBook