ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. “Приборостроение”. 2012 153
Значение оператора
Tr
равно вероятности события, при котором в
обрабатываемом информационном элементе произойдет хотя бы од-
на ошибка из класса
h
и только из класса
h
,
т. е. элемент попадет в
класс
CF
в условиях фильтра
f
h
и только его. Таким образом, если
элемент содержит ошибки по всем фильтрам, оператор
Tr
для него
будет равен нулю, т. е. вес элемента будет считаться минимальным, а
элемент — наименее полезным с точки зрения смысловой нагрузки
ввиду максимальной искаженности. И наоборот, если элемент вклю-
чает в себя ошибку только по данному фильтру, тогда оператор
Tr
сводится к показателю
q
(
ν
i,h
)
из работы [6].
Специфика функционирования автоматизированных систем об-
работки информации такова, что искажение отдельных элементов
данных не останавливает работу системы в целом. Оценка достовер-
ности данных проводится внутри процессов функционирования си-
стемы. При этом важно оценивать данные, полученные в процессе
анализа, по уровню критичности искажений, а также по степени рас-
пространения однотипных искажений между различными информа-
ционными элементами.
В процессе профилирования проводится анализ данных, после
которого в результате экспертной оценки итогов профилирования
выбирается стратегия повышения качества данных. Введем следую-
щее предположение: смысловая ценность полностью достоверного
информационного элемента много выше ценности частично досто-
верного информационного элемента. Под полностью достоверным
информационным элементом понимается такой элемент, который не
содержит ошибок ни одного класса из всего множества классов
v
i
данного элемента. Полностью достоверный элемент не попадет ни в
один класс
CF
.
Напротив, за частично достоверный элемент прини-
мается такой элемент, который содержит хотя бы одну ошибку из ка-
кого-либо класса
v
i
.
Из данного предположения следует, что лучшей
стратегией
W
повышения качества данных является такая стратегия,
при которой в первую очередь обрабатываются информационные
элементы с наименьшим количеством ошибок минимальной стоимо-
сти. Под стоимостью ошибки понимается размер убытков, выражен-
ный в абсолютных или относительных единицах, которые повлечет
за собой обработка информационного элемента с такой ошибкой.
Рассмотрим следующие варианты распределения ошибок в эле-
ментах результатов профилирования. В целях наглядности допустим,
что имеется всего два класса искажений.
На рис. 4 представлено множество всех элементов профилирова-
ния
X
.
Подмножество
X
1
,
проецируется на множество
X
и выделяет
элементы, содержащие ошибку из первого класса искажений. Анало-
гично, подмножество
X
2
показывает элементы с ошибкой из второго
класса искажений.