Metodą obliczania AUC-ROC jest wykreślenie TPR i FPR jako progu, jest zmienione i obliczenie pola pod tą krzywą. Ale dlaczego ten obszar pod krzywą jest taki sam jak to prawdopodobieństwo? Załóżmy, że:τ
- A jest rozkładem wyników, które model wytwarza dla punktów danych, które faktycznie należą do klasy dodatniej.
- B jest rozkładem wyników, które model wytwarza dla punktów danych, które faktycznie znajdują się w klasie ujemnej (chcemy, aby było to na lewo od ).A
- τ to próg odcięcia. Jeśli punkt danych uzyska wynik większy niż ten, przewiduje się, że należy do klasy dodatniej. W przeciwnym razie przewiduje się, że będzie w klasie negatywnej.
Zauważ, że TPR (przywołanie) jest podane przez: a FPR (opadanie) to: .P(A>τ)P(B>τ)
Teraz wykreślamy TPR na osi y i FPR na osi x, rysujemy krzywą dla różnych i obliczamy pole pod tą krzywą ( ).τAUC
Otrzymujemy:
AUC=∫10TPR(x)dx=∫10P(A>τ(x))dx
gdzie jest FPR. Jednym ze sposobów obliczenia tej całki jest uznanie za należącą do rozkładu równomiernego. W takim przypadku staje się po prostu oczekiwaniem .
xxTPR
AUC=Ex[P(A>τ(x))](1)
jeśli weźmiemy pod uwagę .
x∼U[0,1)
Teraz tutaj był tylkoxFPR
x=FPR=P(B>τ(x))
Ponieważ uważaliśmy, że pochodzi z rozkładu jednolitego,
x
P(B>τ(x))∼U
=>P(B<τ(x))∼(1−U)∼U
=>FB(τ(x))∼U(2)
Ale wiemy z odwrotnej transformacji prawa , że dla każdej zmiennej losowej , jeśli następnie . Wynika to z faktu, że pobranie dowolnej zmiennej losowej i zastosowanie do niej własnego CDF prowadzi do uzyskania munduru.XFX(Y)∼UY∼X
FX(X)=P(FX(x)<X)=P(X<F−1X(X))=FXF−1X(X)=X
i dotyczy to tylko munduru.
Wykorzystanie tego faktu w równaniu (2) daje nam:
τ(x)∼B
Podstawiając to do równania (1) otrzymujemy:
AUC=Ex(P(A>B))=P(A>B)
Innymi słowy, pole pod krzywą to prawdopodobieństwo, że losowa próbka dodatnia będzie miała wyższy wynik niż losowa próbka ujemna.