Background Image
Previous Page  5 / 15 Next Page
Information
Show Menu
Previous Page 5 / 15 Next Page
Page Background

Интервальные доверительные оценки для показателей качества…

5

Количественной характеристикой классификатора является пока-

затель AUC (

Area Under Curve

), равный площади под ROC-кривой.

Возможные значения AUC (в %) варьируются в интервале [0; 100].

Приемлемыми считаются классификаторы с AUC

70 %.

Обозначим через

F

B

(

z

) и

F

G

(

z

) функции распределения соответ-

ственно «плохих» (

Bad

) и «хороших» (

Good

) объектов, непрерыв-

ные для

0 1.

z

 

Тогда для ROC-кривой справедливо представление

1

( )

( ) .

B G

ROC z F F z

Соответственно для показателя AUC справедливо представление

 

1

0

.

AUC TPR FPR d FPR

Поскольку ROC-кривая и показатель AUC определяются по ре-

зультатам наблюдений, для практического использования получае-

мых показателей необходимо иметь интервальные доверительные

оценки для ROC-кривой и AUC, особенно для случая малых выборок

(число наблюдений результатов классификации

n

= 50…100), когда

асимптотические оценки имеют большую погрешность.

Интервальные оценки.

Для построения интервальных довери-

тельных оценок функций распределения

,

G B

F F

используется груп-

пировка наблюдений.

Интервал значений [0; 1] разбивается на

N

подынтервалов

1 ;

, 1, 2, ..., ,

jN

j

j

A

j

N

N N

 

1

0; 1 .

N

jN

j

A A

 

Функции

( )

( )

G B N

F z

(оценки

,

B G

F F

по группированным данным)

определяются как

[ ] 1

( )

( )

1

0,

0,

1

, 0 1,

1,

1,

Nz

G B

G B N

jN

j

z

F

z

n

z

 

где

( )

G B N

F

— функции распределения для «хороших» (

Good

) и

«плохих» (

Bad

) наблюдений соответственно, построенные по груп-

пированным данным;

n

— количество наблюдаемых данных;

N

количество интервалов разбиения отрезка [0; 1].

Здесь

( )

( )

N 1

, ...,

G B

G B

NN

N

  

— случайный вектор частот попа-

даний «хороших» («плохих») наблюдений в соответствующие интер-

валы. Он имеет полиномиальное распределение

1

( ;

,...,

):

N

NN

M n p p