Методика выбора параметров и интерпретации результатов анализа …
1
УДК 004.052.42
Методика выбора параметров и интерпретации
результатов анализа выбросов в данных
систем поддержки принятия решений
© В.И. Кузовлев, А.О. Орлов
МГТУ им. Н.Э. Баумана, Москва, 105005, Россия
Описана модель анализа категориальных атрибутов данных. Модель построена на
вычислении показателя локальной аномальности LOF, расчете расстояний между
значениями категориальных атрибутов с использованием формулы инверсной гра-
витации, понятиях плотности объектов и ядра. Обнаружена зависимость ре-
зультатов работы модели от параметра k, характеризующего число ближайших
объектов при расчете показателя LOF. Предложены интервалы значений пара-
метра k, показан вариант применения этих интервалов при определении лингви-
стических переменных для использования в создании правил нечеткого вывода с
целью обеспечения гибкости при выборе параметра k и возможности нечеткой
интерпретации значений показателя LOF.
Ключевые слова:
показатель локальной аномальности, LOF, выбросы в данных,
аномалии в данных, категориальные атрибуты.
Введение.
В системах поддержки принятия решений (СППР)
большое значение уделяется формированию суждений о будущих
фактах (прогнозам) на основе анализа статистических данных. Такой
анализ данных называется прогнозным. Объекты генеральной сово-
купности представляют собой экземпляры некоторых сущностей, об-
ладающие одинаковым набором атрибутов. Значения этих атрибутов
анализируются для выявления закономерностей среди всех объектов
генеральной совокупности (далее — объекты данных). Выбросами,
или аномалиями, называются такие объекты данных, которые не удо-
влетворяют качествам, характерным для большинства других объек-
тов генеральной совокупности. Поскольку каждый объект данных
обладает рядом атрибутов, можно говорить о степени схожести объ-
ектов, основываясь на сравнении всех значений соответствующих
атрибутов этих объектов. Большинство методов поиска выбросов в
данных построены на вычислении расстояний между объектами дан-
ных [1]. В [2, 3] описывается метод поиска выбросов, основанный на
расчете показателя локальной аномальности
LOF
[4]. Описаны пре-
имущества данного метода. Одним из важных преимуществ являет-
ся возможность расчета степени аномальности каждого объекта
данных. Это позволяет гибко оценивать результат анализа в отличие