Jak uzyskać probabilistyczną interpretację AUC?


14

Dlaczego obszar pod krzywą ROC to prawdopodobieństwo, że klasyfikator uszereguje losowo wybraną „pozytywną” instancję (na podstawie uzyskanych prognoz) wyższą niż przypadkowo wybrana „pozytywna” instancja (z oryginalnej pozytywnej klasy)? W jaki sposób można udowodnić matematycznie to stwierdzenie za pomocą całki, podając CDF i PDF prawdziwie dodatnie i ujemne rozkłady klas?


2
Napisałem tutaj bardzo elementarny dowód: madrury.github.io/jekyll/update/statistics/2017/06/21/…
Matthew Drury,

Odpowiedzi:


10

Po pierwsze, spróbujmy formalnie zdefiniować obszar pod krzywą ROC. Niektóre założenia i definicje:

  • Mamy klasyfikator probabilistyczny, który wyprowadza „wynik” s (x), gdzie x są cechami, a s jest ogólną rosnącą funkcją monotoniczną szacowanego prawdopodobieństwa p (klasa = 1 | x).

  • fk(s) , z : = pdf wyników dla klasy k, z CDFk={0,1}Fk(s)

  • Klasyfikację nowej obserwacji uzyskuje się, porównując wynik s do progu t

Ponadto, dla wygody matematycznej, rozważmy klasę dodatnią (wykryte zdarzenie) k = 0 i ujemną k = 1. W tym ustawieniu możemy zdefiniować:

  • Przypomnij (aka Wrażliwość, aka TPR) : (odsetek przypadków pozytywnych sklasyfikowanych jako pozytywne)F0(t)
  • Swoistość (inaczej TNR) : (odsetek przypadków negatywnych zaklasyfikowanych jako negatywne)1F1(t)
  • FPR (aka Fall-out) : 1 - TNR =F1(t)

Krzywa ROC jest wówczas wykresem stosunku do . Ustawiając , możemy formalnie zdefiniować obszar pod krzywą ROC jako: Zmiana zmiennej ( ): F0(t)F1(t)v=F1(s)

AUC=01F0(F11(v))dv
dv=f1(s)ds
AUC=F0(s)f1(s)ds

Ta formuła może być łatwo postrzegana jako prawdopodobieństwo, że losowo wybrany członek klasy 0 da wynik niższy niż wynik losowo losowanego członka klasy 1.

Ten dowód pochodzi z: https://pdfs.semanticscholar.org/1fcb/f15898db36990f651c1e5cdc0b405855de2c.pdf


5

Odpowiedź @ alebu jest świetna. Ale jego notacja jest niestandardowa i używa 0 dla klasy dodatniej i 1 dla klasy ujemnej. Poniżej znajdują się wyniki standardowej notacji (0 dla klasy ujemnej i 1 dla klasy dodatniej):

Pdf i cdf wyniku dla klasy negatywnej: if0(s)F0(s)

Pdf i cdf wyniku dla klasy pozytywnej: if1(s)F1(s)

FPR =x(s)=1F0(s)

TPR =y(s)=1F1(s)

AUC=01y(x)dx=01y(x(τ))dx(τ)=+y(τ)x(τ)dτ=+(1F1(τ))(f0(τ))dτ=+(1F1(τ))f0(τ)dτ

gdzie oznacza próg. Interpretację można zastosować w odpowiedzi @ alebu do ostatniego wyrażenia.τ


1

Metodą obliczania AUC-ROC jest wykreślenie TPR i FPR jako progu, jest zmienione i obliczenie pola pod tą krzywą. Ale dlaczego ten obszar pod krzywą jest taki sam jak to prawdopodobieństwo? Załóżmy, że:τ

  1. A jest rozkładem wyników, które model wytwarza dla punktów danych, które faktycznie należą do klasy dodatniej.
  2. B jest rozkładem wyników, które model wytwarza dla punktów danych, które faktycznie znajdują się w klasie ujemnej (chcemy, aby było to na lewo od ).A
  3. τ to próg odcięcia. Jeśli punkt danych uzyska wynik większy niż ten, przewiduje się, że należy do klasy dodatniej. W przeciwnym razie przewiduje się, że będzie w klasie negatywnej.

Zauważ, że TPR (przywołanie) jest podane przez: a FPR (opadanie) to: .P(A>τ)P(B>τ)

Teraz wykreślamy TPR na osi y i FPR na osi x, rysujemy krzywą dla różnych i obliczamy pole pod tą krzywą ( ).τAUC

Otrzymujemy:

AUC=01TPR(x)dx=01P(A>τ(x))dx
gdzie jest FPR. Jednym ze sposobów obliczenia tej całki jest uznanie za należącą do rozkładu równomiernego. W takim przypadku staje się po prostu oczekiwaniem .xxTPR

(1)AUC=Ex[P(A>τ(x))]
jeśli weźmiemy pod uwagę .xU[0,1)

Teraz tutaj był tylkoxFPR

x=FPR=P(B>τ(x))
Ponieważ uważaliśmy, że pochodzi z rozkładu jednolitego,x

P(B>τ(x))U
=>P(B<τ(x))(1U)U
(2)=>FB(τ(x))U

Ale wiemy z odwrotnej transformacji prawa , że dla każdej zmiennej losowej , jeśli następnie . Wynika to z faktu, że pobranie dowolnej zmiennej losowej i zastosowanie do niej własnego CDF prowadzi do uzyskania munduru.XFX(Y)UYX

FX(X)=P(FX(x)<X)=P(X<FX1(X))=FXFX1(X)=X
i dotyczy to tylko munduru.

Wykorzystanie tego faktu w równaniu (2) daje nam:

τ(x)B

Podstawiając to do równania (1) otrzymujemy:

AUC=Ex(P(A>B))=P(A>B)

Innymi słowy, pole pod krzywą to prawdopodobieństwo, że losowa próbka dodatnia będzie miała wyższy wynik niż losowa próbka ujemna.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.