Wojtek J. Krzanowski i David J. Hand Krzywe ROC dla danych ciągłych (2009) to świetne odniesienie do wszystkich rzeczy związanych z krzywymi ROC. Gromadzi razem szereg wyników w frustrująco szerokiej bazie literatury, która często wykorzystuje inną terminologię do omawiania tego samego tematu.
Ponadto książka ta zawiera komentarze i porównania metod alternatywnych, które zostały uzyskane w celu oszacowania tych samych wielkości, i wskazuje, że niektóre metody przyjmują założenia, które mogą być nie do utrzymania w określonych kontekstach. To jest jeden z takich kontekstów; inne odpowiedzi podają metodę Hanleya i McNeila, która zakłada dwumianowy model rozkładów wyników, co może być nieodpowiednie w przypadkach, w których rozkład wyników klas nie jest (zbliżony) do normy. Założenie normalnie rozłożonych wyników wydaje się szczególnie nieodpowiednie w nowoczesnych kontekstach uczenia maszynowego , typowe powszechne modele, takie jak xgboost, mają tendencję do tworzenia wyników z rozkładem „wanny” dla zadań klasyfikacyjnych (to znaczy rozkładów o dużej gęstości w skrajnościach bliskich 0 i 1 ).
Pytanie 1 - AUC
W sekcji 6.3 omówiono porównania AUC ROC dla dwóch krzywych ROC (str. 113–114). W szczególności rozumiem, że te dwa modele są ze sobą skorelowane, więc informacja o tym, jak obliczyć jest tutaj niezwykle ważna; w przeciwnym razie statystyki testowe będą tendencyjne, ponieważ nie uwzględniają udziału korelacji.r
W przypadku nieskorelowanych krzywych ROC, które nie są oparte na żadnych parametrycznych założeniach dystrybucyjnych, statystyki dla tets i przedziały ufności porównujące AUC mogą być bezpośrednio oparte na szacunkach i ^ AUC 2 wartości AUC oraz szacunkach ich odchyleń standardowych S 1 i S 2 , jak podano w sekcji 3.5.1:AUCˆ1AUCˆ2S1S2
Z=AUCˆ1−AUCˆ2S21+S22−−−−−−−√
Aby rozszerzyć takie testy na przypadek, w którym te same dane są wykorzystywane dla obu klasyfikatorów, musimy wziąć pod uwagę korelację między szacunkami AUC:
z=AUCˆ1−AUCˆ2S21+S22−rS1S2−−−−−−−−−−−−−√
gdzie jest oszacowaniem tej korelacji. Hanley i McNeil (1983) wykonane takiego rozszerzenia, opierając swoją analizę na razie binormal, ale tylko dał tabelę pokazującą jak obliczyć szacunkowy współczynnik korelacji R z korelacji r P dwóch klasyfikatorów do klasy P i korelację r n dwóch klasyfikatorów w klasie N, mówiąc, że wyprowadzenie matematyczne było dostępne na żądanie. Różni inni autorzy (np. Zou, 2001) opracowali testy w oparciu o model dwumianowy, zakładając, że można znaleźć odpowiednią transformację, która jednocześnie przekształci rozkłady wyników klas P i N do normalnych.rrrPrn
DeLong i wsp. (1988) wykorzystali tożsamość między AUC a statystyką testową Manna-Whitneya, wraz z wynikami teorii ogólnej statystyki według Sen (1960), aby uzyskać estiamte korelacji między AUC, które nie opiera się na dwumianowym założeniu. DeLong i wsp. (1988) przedstawili następujące wyniki porównań między k ≥ 2 klasyfikatorami.Uk≥2
W sekcji 3.5.1 pokazaliśmy, że powierzchnia pod empiryczną krzywą ROC była równa statystyce Manna-Whitneya i została podana przezU
gdziesPi,i=1,…,nPsą wynikiem dlaobiektówklasyP,asNj,j=1,…,nNsą wynikami dlaobiektyklasyNw próbce. Załóżmy, że mamykklasyfikatorów, dających wynikis r N j ,
AUCˆ=1nNnP∑i=1nN∑j=1nP[I(sPj>sNi)+12I(sPj=sNi)]
sPi,i=1,…,nPPsNj,j=1,…,nNNk i s r P i , j = 1 , … , n P [Poprawiłem błąd indeksowania w tej części - Sycorax], i ^ A U C r , r = 1 , … , k . DefiniowaćsrNj,j=1…nNsrPi,j=1,…,nPAUCˆr,r=1,…,k
i
V r 01 =1
Vr10=1nN∑j=1nN[I(srPi>srNj)+12I(srPi=srNj)],i=1,…,nP
Vr01=1nP∑i=1nP[I(srPi>srNj)+12I(srPi=srNj)],j=1,…,nN
następnie zdefiniuj macierz W 10 za pomocą ( r , s ) tego elementu
w r , s 10 = 1k×kW10(r,s)
imacierzk×kW01z(r,s)elementem
w r
wr,s10=1nP−1∑i=1nP[Vr10(sPi)−AUCˆr][Vs10(sPi)−AUCˆs]
k×kW01(r,s)
Następnie estiamowana macierz kowariancji dla wektora( ^ A U C 1,…, ^ A U C kwr,s01=1nN−1∑i=1nN[Vr01(sNi)−AUCˆr][Vs01(sNi)−AUCˆs]
szacowanych obszarów pod krzywymi wynosi
W = 1(AUCˆ1,…,AUCˆk)z elementamiwr,s. Jest to uogólnienie wyniku dla szacowanej wariancji pojedynczego oszacowanego AUC, również podanego w sekcji 3.5.1. W przypadku dwóch klasyfikatorów oszacowaną korelacjęrpomiędzy szacowanymi AUCs podaje zatemw1,2W=1nPW10+1nNW01
wr,sr które można zastosować wpunkcie zpowyżej.w1,2w1,1w2,2√z
Ponieważ inne odpowiedzi podają wyrażenia Hanleya i McNeila dla estymatorów wariancji AUC, tutaj odtworzę estymator DeLong z p. 68:
Alternatywne podejście przedstawione przez DeLonga i in. (1988) i zilustrowane przez Pepe (2003) daje być może prostsze oszacowanie, i takie, które wprowadza dodatkową użyteczną koncepcję wartości umieszczenia. Wartość umieszczenia wyniku w odniesieniu do określonej populacji jest funkcją przetrwania tej populacji w s . Ta wartość umieszczenia dla sz populacji N wynosi 1 - F ( s ), a dla sz populacji P wynosi 1 - G ( s ) . Empiryczne oszacowania wartości umieszczenia są podane w oczywistych proporcjach. Zatem wartość umiejscowienia obserwacji s Nsss1−F(s)s1−G(s) w populacji P oznaczonejs P N i , to odsetek wartości próbki z P, który przekraczas N i , avar(s N P i )to wariancja wartości umiejscowienia każdej obserwacji z N w stosunku do populacji P. ..sNisPNisNivar(sNPi)
Szacunek DeLong i wsp. (1988) wariancji podano w kategoriach tych wariancji:
s 2 ( ^ A U C ) = 1AUCˆ
s2(AUCˆ)=1nPvar(sNPi)+1nNvar(sPNi)
Zauważ, że to funkcja rozkładu skumulowanego wyników w populacji N, a G to funkcja rozkładu skumulowanego wyników w populacji P. Standardowym sposobem oszacowania F i G jest użycie pliku ecdf . Książka zawiera również alternatywne metody szacowania ekdf, takie jak szacowanie gęstości jądra, ale to nie jest objęte zakresem tej odpowiedzi.FGFG
Statystyki i z można uznać za standardowe odchylenia normalne, a testy statystyczne hipotezy zerowej przebiegają w zwykły sposób. (Zobacz także: testowanie hipotez )Zz
Jest to uproszczony, ogólny zarys działania testowania hipotez:
Testując, twoimi słowami, „czy jeden klasyfikator jest znacznie lepszy od drugiego”, można sformułować inaczej, testując hipotezę zerową, że oba modele mają statystycznie równe AUC względem alternatywnej hipotezy, że statystyki są nierówne.
To jest test dwustronny.
Odrzucamy hipotezę zerową, jeśli statystyka testowa znajduje się w obszarze krytycznym rozkładu odniesienia, który jest w tym przypadku standardowym rozkładem normalnym.
αz>1.96z<−1.96α/21−α/2
Pytanie 1 - Wrażliwość i swoistość
t
sensitivity=tp1−specificity=fp=P(sP>t)=P(sN>t)
Głównym punktem spornym jest opracowanie odpowiedniego testu, biorąc pod uwagę, że dwie proporcje próbki będą skorelowane (ponieważ zastosowałeś dwa modele do tych samych danych testowych). Jest to adresowane na str. 111.
tpfpt(tp1−tp2)/s12tpiis212tp1tp2
tp1tp2
N
tp1=tp2tp1≠tp2
Model 2 Positive at tModel 2 Negative at tModel 1 Positive at tacModel 1 Negative at tbd
abcd=∑i=1nPI(s1Pi>t)⋅I(s2Pi>t)=∑i=1nPI(s1Pi≤t)⋅I(s2Pi>t)=∑i=1nPI(s1Pi>t)⋅I(s2Pi≤t)=∑i=1nPI(s1Pi≤t)⋅I(s2Pi≤t)
M=(b−c)2b+c
χ21α=95%M>3.841459
srPisrNj
pytanie 2
Wydaje się, że wystarczy scalić wyniki poprzez uśrednienie wartości prognozy dla każdego respondenta, tak że dla każdego modelu masz 1 wektor 100 uśrednionych wartości prognozowanych. Następnie jak zwykle oblicz AUC ROC, czułość i statystyki specyficzności, tak jakby oryginalne modele nie istniały. Odzwierciedla to strategię modelowania, która traktuje każdy z 5 modeli respondentów jako jeden z „komitetów” modeli, coś w rodzaju zespołu.