В.И. Кузовлев, А.О. Орлов
8
1
k
1
p–
1
p
/3
p
/2 2
p
/3
жесткий
средний
мягкий
М
Рис. 3.
Функция принадлежности лингвистической переменной «анализ
выбросов»
По результатам проведенных исследований разработана методика
выбора параметров для анализа данных систем поддержки принятия
решений на предмет выбросов в категориальных атрибутах, а также
последующей интерпретации результатов анализа. Разработанная ме-
тодика состоит из следующих шагов:
Шаг 1
. Формирование исходных данных для анализа. Файл пред-
ставляет собой набор значений некоторого отдельно взятого катего-
риального атрибута, являющийся подмножеством генеральной сово-
купности. При этом каждое значение записывается в новой строке, а
первой строкой является название атрибута. Ясно, что количество
строк в исходном файле соответствует мощности генеральной сово-
купности плюс один.
Шаг 2.
При помощи модели, изображенной на рис. 1, проводится
анализ значений категориального атрибута. При этом начальная
плотность должна быть задана из тех соображений, чтобы в момент
начала анализа не существовало пересечений объектов, т. е. ядро бы-
ло пустым. Далее плотность будет автоматически регулироваться в
процессе анализа.
Шаг 3.
По результатам анализа данных будет построен график
зависимости среднего
LOF
ядра от отношения площади ядра к сум-
марной площади всех объектов.
Шаг 4.
Шаги 2–3 повторяются несколько раз для разных значе-
ний параметра
k
в диапазоне
1,
1
p
, где
p
— количество уникаль-
ных значений рассматриваемого категориального атрибута. Таким
образом, будет получен набор графиков зависимости среднего
LOF
ядра от его относительной площади.
Шаг 5.
В зависимости от требуемой априори «жесткости» анали-
за выбрать значение параметра
k
, исходя из тех соображений, что чем