ROC vs krzywe precyzji i przywołania

159

Rozumiem formalne różnice między nimi, chcę wiedzieć, kiedy bardziej odpowiednie jest użycie jednego kontra drugiego.

Czy zawsze zapewniają komplementarny wgląd w działanie danego systemu klasyfikacji / wykrywania?
Kiedy uzasadnione jest podanie ich obu, powiedzmy, w formie papierowej? zamiast tylko jednego?
Czy istnieją jakieś alternatywne (być może bardziej nowoczesne) deskryptory, które wychwytują istotne aspekty zarówno ROC, jak i precyzyjnego przywołania dla systemu klasyfikacji?

Interesują mnie argumenty zarówno dla przypadków binarnych, jak i wieloklasowych (np. Jako przypadki jeden do wszystkich).

machine-learning roc precision-recall

— Amelio Vazquez-Reina
źródło

Ten artykuł musi pojawić się w kontekście: biostat.wisc.edu/~page/rocpr.pdf

Mógłbym użyć tego jako „wtyczki”, aby wspomnieć o mojej własnej tezie tutaj. W Leitner (2012) zaproponowałem metrykę „Średnia dokładność pomiaru F” (patrz str. 65) jako średnią harmoniczną F- pomiar i średnia precyzja. To znaczy połączenie zestawu metryki oceny z metryką oceny rankingowej. W pracy wykazałem, że maksymalizację wyniku FAP na zestawie treningowym można wykorzystać do zidentyfikowania najlepszego punktu odcięcia w celu ograniczenia zadania wyszukiwania informacji bez ograniczeń (przy użyciu setek uruchomień BioCreative!).

— fnl

Oto kolejna dobra dyskusja na temat krzywej AUC-ROC i PR w niezrównoważonym zbiorze danych. Ma ten sam wniosek, co powiedział dsimcha. Jeśli bardziej zależy Ci na rzadkim przypadku, powinieneś użyć PR.

— YC

Odpowiedzi:

207

Kluczową różnicą jest to, że krzywe ROC będą takie same bez względu na prawdopodobieństwo wyjściowe, ale krzywe PR mogą być bardziej przydatne w praktyce w przypadku problemów typu igła w stogu siana lub problemów, w których klasa „dodatnia” jest bardziej interesująca niż ujemna klasa.

Aby to pokazać, zacznijmy od bardzo fajnego sposobu na określenie precyzji, przywołania i specyficzności. Zakładam, że masz „pozytywne” klasy o nazwie 1 i „negatywne” klasy o nazwie 0. to oszacowanie prawdziwej klasy etykiety . Następnie: $\hat{Y}$ $Y$ Kluczową sprawą jest, aby pamiętać, że czułość / Recall i swoistość, które tworzą krzywą ROC, to prawdopodobieństwouzależnione od prawdziwej klasy etykiecie. Dlatego będą takie same, niezależnie od tego, czym jest. Precyzja jest prawdopodobieństwem uwarunkowanymoszacowaniem etykiety klasyi dlatego będzie się różnić, jeśli spróbujesz klasyfikatora w różnych populacjach o różnych wyjściowych wartościach

\begin{aligned} Precyzja & = P. (Y = 1 | \hat{Y} = 1) \\ Odwołanie = Wrażliwość & = P. (\hat{Y} = 1 | Y = 1) \\ Specyficzność & = P. (\hat{Y} = 0 | Y = 0) \end{aligned}

$\begin{aligned} &\text{Precision} &= P(Y = 1 | \hat{Y} = 1) \\ &\text{Recall} = \text{Sensitivity} &= P(\hat{Y} = 1 | Y = 1) \\ &\text{Specificity} &= P(\hat{Y} = 0 | Y = 0) \end{aligned}$

P (Y = 1)

$P(Y = 1)$

P (Y = 1)

$P(Y = 1)$ . Jednak może być bardziej przydatny w praktyce, jeśli dbasz tylko o jedną populację o znanym prawdopodobieństwie tła, a klasa „pozytywna” jest znacznie bardziej interesująca niż klasa „negatywna”. (Precyzja IIRC jest popularna w polu pobierania dokumentów, w takim przypadku.) Jest tak, ponieważ bezpośrednio odpowiada na pytanie: „Jakie jest prawdopodobieństwo, że jest to prawdziwy hit, biorąc pod uwagę mój klasyfikator?”.

$P(Y = 1)$

IMHO, pisząc artykuł, powinieneś podać dowolną krzywą odpowiadającą na pytanie, na które chcesz odpowiedzieć (lub którykolwiek, który jest bardziej korzystny dla twojej metody, jeśli jesteś cyniczny). Jeśli twoje pytanie brzmi: „Jak znaczący jest pozytywny wynik mojego klasyfikatora, biorąc pod uwagę podstawowe prawdopodobieństwo mojego problemu ?”, Użyj krzywej PR. Jeśli twoje pytanie brzmi: „Jak ogólnie można oczekiwać, że ten klasyfikator będzie działał ogólnie przy różnych prawdopodobieństwach wyjściowych ?”, Przejdź do krzywej ROC.

— dsimcha
źródło

to było fantastyczne wytłumaczenie!

— Amelio Vazquez-Reina

+1, świetny wgląd w probabilistyczne interpretacje precyzji, przywołania i specyficzności.

— Zhubarb,

Co za odpowiedź! Żałuję, że nie mogłem dwa razy trafić w górę

— Facet z Londynu,

Na wypadek, gdyby nie było to jasne z mojego wcześniejszego komentarza: ta odpowiedź jest błędna , podobnie jak krzywe ROC, które używają specyficzności. Zobacz np . Wprowadzenie do analizy ROC - co również wskazuje na ich niedociągnięcia, co zostało udokumentowane w mojej odpowiedzi: „Wiele domen świata rzeczywistego jest zdominowanych przez dużą liczbę negatywnych instancji, więc wydajność po lewej stronie wykresu ROC staje się bardziej interesujące."

— fnl

+0,5 @fnl. Chociaż nie jest to wyraźnie błędne, myślę, że odpowiedź nie zawiera sedna pytania; interpretacja probabilistyczna jest bardzo pożądana, ale jest dyskusyjna w odniesieniu do głównego pytania. Ponadto nie mogę podać ogólnego realistycznego przykładu, w którym pytanie: „ Jak znaczący jest pozytywny wynik mojego klasyfikatora, biorąc pod uwagę podstawowe prawdopodobieństwa mojego problemu? ”, Nie ma zastosowania. W „ w ogóle ” perspektywa ROC AUC jest po prostu zbyt rozmyty. (Jest

— rzeczą oczywistą

Oto wnioski z artykułu Davisa i Goadricha wyjaśniającego związek między ROC a przestrzenią PR. Odpowiadają na dwa pierwsze pytania:

Po pierwsze, dla każdego zestawu danych krzywa ROC i krzywa PR dla danego algorytmu zawierają te same punkty. Ta równoważność prowadzi do zaskakującego twierdzenia, że krzywa dominuje w przestrzeni ROC wtedy i tylko wtedy, gdy dominuje w przestrzeni PR. Po drugie, w następstwie twierdzenia pokazujemy istnienie przestrzeni PR analogicznej do wypukłego kadłuba w przestrzeni ROC, którą nazywamy osiągalną krzywą PR. Co ciekawe, konstruując osiągalną krzywą PR, odrzuca się dokładnie te same punkty pominięte przez wypukły kadłub w przestrzeni ROC. W rezultacie możemy efektywnie obliczyć osiągalną krzywą PR. [...] Na koniec pokazujemy, że algorytm optymalizujący obszar pod krzywą ROC nie gwarantuje optymalizacji obszaru pod krzywą PR.

Innymi słowy, w zasadzie ROC i PR są równie odpowiednie do porównywania wyników. Ale w przypadku przypadku 20 trafień i braków z 1980 r. Pokazują one, że różnice mogą być dość drastyczne, jak pokazano na rycinach 11 i 12.

Ryciny 11 i 12 z Davis i Goadrich

Wynik / krzywa (I) opisuje wynik, w którym 10 z 20 trafień znajduje się w pierwszej dziesiątce, a pozostałe 10 trafień rozkłada się równomiernie na pierwsze 1500 stopni. Resut (II) opisuje wynik, w którym 20 trafień jest równomiernie rozłożonych na pierwszych 500 (z 2000) rang. Tak więc w przypadkach, w których preferowany jest „kształt” wyniku (I), preferencja ta jest wyraźnie rozróżnialna w przestrzeni PR, podczas gdy AUC ROC dwóch wyników są prawie równe.

— fnl
źródło

Te wykresy nie odzwierciedlają (dyskretyzują) opisanej sytuacji, która pokazywałaby kroki na krzywych ROC za każdym razem, gdy napotkane zostanie trafienie (po pierwszych 10 dla krzywej I). ROCCH wyglądałby tak z Wypukłym Kadłubem. Podobnie w przypadku PR, Precyzja podnosiłaby wycięcie za każdym razem, gdy trafienie zostało znalezione, a następnie zanikała podczas chybień, zaczynając od (0,0) dla niczego nieprzewidzianego (powyżej progu), jeśli Precyzja została zdefiniowana jako 0 w tym punkcie (0 / 0) - krzywa II, jak pokazano, jest maksymalną precyzją, a nie precyzją na każdym poziomie progowym (a zatem i przywoływanym).

— David MW Powers

Tak naprawdę jest to ryc. 7 w wersji papieru, którą znalazłem. Papier faktycznie interpoluje krzywą PR za pomocą krzywej ROC. Zauważ, że wynik dominacji opiera się na założeniu, że przywołanie jest niezerowe, co nie dzieje się do momentu znalezienia pierwszego trafienia, a Precyzja (zgodnie z definicją w dokumencie) jest formalnie niezdefiniowana (0/0) do tego czasu.

— David MW Powers

Tak, problemem jest brak prawidłowej dyskretyzacji (chociaż taki wykres może wystąpić, jeśli zostanie uśredniony w przypadku dużej liczby przebiegów). Jednak wynik pracy jest mniej znaczący, niż można się spodziewać z powodu problemów z nieokreślonością, i nie jest tak znaczący, jak można się spodziewać po zrozumieniu wyniku w kategoriach przeskalowania. Nigdy nie użyłbym PR, ale czasami skalowałbym się do ROC lub równoważnie używałbym PN.

— David MW Powers

Po pierwsze wykresy z ryc. 7 (11 vs 12) są nieistotne - nie są to wykresy schodkowe dla wyszkolonego systemu (ponieważ przykłady pozytywne przekraczają próg redukcyjny), ale odpowiadają średnim limitom, gdy liczba RÓŻNYCH systemów zbliża się do nieskończoności. Druga precyzja i przywołanie zostały przeznaczone do wyszukiwania w sieci i oba całkowicie ignorują (zakładaną dużą) liczbę prawdziwych negatywów (Prec = TP / PP i Rec = TP / RP). Po trzecie, wykres Precyzja i przywołanie pokazuje po prostu wzajemne odchylenie (1 / PP) w stosunku do wzajemnego rozpowszechnienia (1 / RP) dla określonego poziomu TP (jeśli zatrzymałeś wyszukiwanie w sieci przy poprawnych trafieniach TP).

— David MW Powers

OK, więc po wyjaśnieniu wszystkich moich wątpliwości uważam, że należy poinformować czytelników, że uważam, że odpowiedź @DavidMWPowers powinna być lepsza niż moja.

— fnl

Istnieje wiele nieporozumień dotyczących oceny. Częściowo wynika to z podejścia uczenia maszynowego polegającego na próbie optymalizacji algorytmów w zestawach danych, bez rzeczywistego zainteresowania danymi.

W kontekście medycznym chodzi o rzeczywiste wyniki - na przykład, ile osób oszczędzasz na śmierci. W kontekście medycznym Czułość (TPR) służy do sprawdzania, ile pozytywnych przypadków jest prawidłowo wykrywanych (minimalizowanie odsetka pomijanych jako fałszywie ujemne = FNR), podczas gdy swoistość (TNR) służy do sprawdzania, ile pozytywnych przypadków jest poprawnie wyeliminowane (minimalizując odsetek uznany za fałszywie dodatni = FPR). Niektóre choroby występują z częstością 1 na milion. Zatem jeśli zawsze przewidujesz wartość ujemną, masz Dokładność 0,999999 - jest to osiągane przez prostego ucznia ZeroR, który po prostu przewiduje maksymalną klasę. Jeśli weźmiemy pod uwagę Recall i Precision do przewidywania, że jesteś wolny od choroby, mamy Recall = 1 i Precision = 0,999999 dla ZeroR. Oczywiście, jeśli odwrócisz + ve i -ve i spróbujesz przewidzieć, że dana osoba ma chorobę za pomocą ZeroR, otrzymasz Recall = 0 i Precision = undef (ponieważ nie zrobiłeś nawet pozytywnej prognozy, ale często ludzie definiują Precision jako 0 w tym walizka). Pamiętaj, że Recall (+ ve Recall) i Inverse Recall (-ve Recall) oraz powiązane TPR, FPR, TNR i FNR są zawsze zdefiniowane, ponieważ rozwiązujemy problem, ponieważ wiemy, że istnieją dwie klasy do rozróżnienia i celowo zapewniamy przykłady każdego z nich.

Zwróć uwagę na ogromną różnicę między brakującym rakiem w kontekście medycznym (ktoś umiera, a ty zostajesz pozwany) w porównaniu z brakiem artykułu w wyszukiwarce internetowej (duża szansa, że jeden z pozostałych odniesie go, jeśli to ważne). W obu przypadkach błędy te są określane jako fałszywe negatywy, w porównaniu z dużą populacją negatywów. W przypadku wyszukiwania w Internecie automatycznie otrzymamy dużą populację prawdziwych negatywów po prostu dlatego, że pokazujemy tylko niewielką liczbę wyników (np. 10 lub 100), a nie pokazanie ich nie powinno być tak naprawdę traktowane jako prognoza negatywna (mogło to być 101 ), podczas gdy w przypadku testu na raka mamy wynik dla każdej osoby i w przeciwieństwie do wyszukiwania w Internecie aktywnie kontrolujemy poziom fałszywie ujemny (wskaźnik).

Tak więc ROC bada kompromis między prawdziwymi pozytywami (w porównaniu z fałszywymi negatywami jako odsetek rzeczywistych pozytywów) i fałszywymi pozytywami (w porównaniu z prawdziwymi negatywami jako odsetek prawdziwych negatywów). Jest to równoważne z porównywaniem czułości (+ ve Recall) i swoistości (-ve Recall). Istnieje również wykres PN, który wygląda tak samo, gdy wykreślamy TP vs FP zamiast TPR vs FPR - ale ponieważ tworzymy wykres kwadratowy, jedyną różnicą są liczby, które umieszczamy na skalach. Są one powiązane stałymi TPR = TP / RP, FPR = TP / RN, gdzie RP = TP + FN, a RN = FN + FP to liczba rzeczywistych dodatnich i rzeczywistych ujemnych wartości w zbiorze danych i odwrotnie tendencyjne PP = TP + FP i PN = TN + FN to liczba razy, gdy przewidujemy dodatnią lub przewidywaną ujemną. Zauważ, że nazywamy rp = RP / N i rn = RN / N częstością występowania pozytywnych odpowiedzi. ujemne i pp = PP / N, a rp = RP / N stronniczość do pozytywnych względnie.

Jeśli zsumujemy lub uśrednimy czułość i swoistość lub spojrzymy na obszar pod krzywą kompromisu (równoważny ROC po prostu odwrócenie osi x), otrzymamy ten sam wynik, jeśli wymienimy, która klasa jest + ve i + ve. Nie dotyczy to dokładności i przywołania (jak pokazano powyżej z prognozowaniem choroby przez ZeroR). Ta arbitralność jest głównym brakiem precyzji, przywołania i ich średnich (arytmetycznych, geometrycznych lub harmonicznych) i grafów kompromisowych.

Wykresy PR, PN, ROC, LIFT i inne są wykreślane w miarę zmiany parametrów systemu. To klasycznie wykreśl punkty dla każdego wyszkolonego systemu, często ze zwiększeniem lub zmniejszeniem progu, aby zmienić punkt, w którym instancja jest klasyfikowana jako dodatnia lub ujemna.

Czasami wykreślone punkty mogą być uśrednione (zmiana parametrów / progów / algorytmów) zestawów systemów trenowanych w ten sam sposób (ale przy użyciu różnych liczb losowych lub próbkowania lub porządków). Są to teoretyczne konstrukcje, które mówią nam o średnim zachowaniu systemów, a nie o ich wydajności w określonym problemie. Tabele kompromisowe mają na celu pomóc nam wybrać właściwy punkt operacyjny dla konkretnej aplikacji (zestaw danych i podejście) i stąd ROC bierze swoją nazwę (Charakterystyka operacyjna odbiornika ma na celu maksymalizację otrzymanych informacji, w sensie poinformowania).

Zastanówmy się, przeciwko czemu można narysować Wycofanie, TPR lub TP.

TP vs FP (PN) - wygląda dokładnie jak wykres ROC, tylko z różnymi liczbami

TPR vs FPR (ROC) - TPR przeciwko FPR z AUC pozostaje niezmieniony, jeśli +/- są odwrócone.

TPR vs TNR (alt ROC) - lustrzane odbicie ROC jako TNR = 1-FPR (TN + FP = RN)

TP vs PP (LIFT) - X przyrostów dla przykładów pozytywnych i negatywnych (rozciąganie nieliniowe)

TPR vs pp (alt LIFT) - wygląda tak samo jak LIFT, tylko z różnymi liczbami

TP vs 1 / PP - bardzo podobny do LIFT (ale odwrócony z nieliniowym rozciągnięciem)

TPR vs 1 / PP - wygląda tak samo jak TP vs 1 / PP (różne liczby na osi y)

TP vs TP / PP - podobne, ale z rozszerzeniem osi x (TP = X -> TP = X * TP)

TPR vs TP / PP - wygląda tak samo, ale z różnymi liczbami na osiach

Ostatnim jest Recall vs. Precision!

Należy zwrócić uwagę na te wykresy, że wszystkie krzywe, które dominują inne krzywe (są lepsze lub przynajmniej tak wysokie we wszystkich punktach) nadal będą dominować po tych przekształceniach. Ponieważ dominacja oznacza „co najmniej tak samo” w każdym punkcie, wyższa krzywa ma również „co najmniej tak wysoką” powierzchnię pod krzywą (AUC), ponieważ obejmuje ona także powierzchnię między krzywymi. Odwrotna sytuacja nie jest prawdą: jeśli krzywe przecinają się, w przeciwieństwie do dotyku, nie ma dominacji, ale jeden AUC może być większy od drugiego.

Wszystkie przekształcenia odzwierciedlają i / lub powiększają na różne (nieliniowe) sposoby do określonej części wykresu ROC lub PN. Jednak tylko ROC ma niezłą interpretację pola powierzchni pod krzywą (prawdopodobieństwo, że dodatnia pozycja jest wyżej niż ujemna - statystyka U Manna-Whitneya) i odległości powyżej krzywej (prawdopodobieństwo, że decyzja zostanie podjęta na podstawie świadomej decyzji, a nie zgadywania - Youden J statystyka jako dychotomiczna forma informowania).

Zasadniczo nie ma potrzeby korzystania z krzywej kompromisu PR i można po prostu powiększyć krzywą ROC, jeśli wymagane są szczegóły. Krzywa ROC ma unikalną właściwość polegającą na tym, że przekątna (TPR = FPR) reprezentuje szansę, że Odległość powyżej linii szansy (DAC) reprezentuje poinformowanie lub prawdopodobieństwo świadomej decyzji, a obszar pod krzywą (AUC) reprezentuje ranking lub prawdopodobieństwo prawidłowego rankingu par. Wyniki te nie dotyczą krzywej PR, a AUC ulega zniekształceniu w przypadku wyższego przywołania lub TPR, jak wyjaśniono powyżej. Większa wartość PR AUC nie implikuje, że AUC ROC jest większy, a zatem nie implikuje zwiększonej Rankingowości (prawdopodobieństwo prawidłowej prognozy par +/- - tj. jak często przewiduje + ves powyżej -ves) i nie implikuje zwiększonej Informacyjności (raczej prawdopodobieństwa świadomej prognozy niż losowe zgadywanie - mianowicie, jak często wie, co robi, gdy dokonuje prognozy).

Przepraszamy - brak wykresów! Jeśli ktoś chciałby dodać wykresy ilustrujące powyższe transformacje, byłoby świetnie! Mam sporo artykułów w swoich artykułach na temat ROC, LIFT, BIRD, Kappa, miary F, informacji itp., Ale nie są one przedstawione w ten sposób, chociaż są ilustracje ROC vs LIFT vs BIRD vs RP w https : //arxiv.org/pdf/1505.00401.pdf

AKTUALIZACJA: Aby uniknąć prób podania pełnych wyjaśnień w przypadku zbyt długich odpowiedzi lub komentarzy, oto niektóre z moich artykułów „odkrywających” problem z kompromisami Precision vs. Recall inc. F1, czerpanie informacji, a następnie „badanie” relacji z ROC, Kappa, Signiance, DeltaP, AUC itp. Jest to problem, na który wpadł mój uczeń 20 lat temu (Entwisle) i od tego czasu wielu innych odkryło ten przykład ich własne, gdzie istniał empiryczny dowód, że podejście R / P / F / A wysłało ucznia NIEPRAWIDŁOWO, podczas gdy Świadomość (lub w odpowiednich przypadkach Kappa lub Korelacja) przesłała im WŁAŚCIWĄ drogę - teraz przez dziesiątki pól. Istnieje również wiele dobrych i odpowiednich artykułów innych autorów na temat Kappa i ROC, ale gdy używasz Kappas w porównaniu do ROC AUC w porównaniu do wysokości ROC (Informedness or Youden ' J) jest wyjaśnione w listach z 2012 r., które wymieniam (przytoczono w nich wiele ważnych prac innych). W artykule Bookmaker z 2003 r. Po raz pierwszy opracowano formułę „Informedness” dla przypadku wieloklasowego. Artykuł z 2013 r. Wyprowadza wieloklasową wersję Adaboost dostosowaną do optymalizacji informacji (z linkami do zmodyfikowanej Weki, która ją obsługuje i obsługuje).

Bibliografia

1998 Obecne wykorzystanie statystyk w ocenie parserów NLP. J Entwisle, DMW Powers - Materiały ze wspólnych konferencji na temat nowych metod przetwarzania języka: 215-224 https://dl.acm.org/citation.cfm?id=1603935 Cytowany przez 15

2003 Recall & Precision vs. The Bookmaker. DMW Powers - Międzynarodowa konferencja na temat kognitywistyki: 529-534 http://dspace2.flinders.edu.au/xmlui/handle/2328/27159 Cytowany przez 46

Ocena z 2011 r .: od precyzji, wycofania i pomiaru F do ROC, wiedzy, oceny i korelacji. DMW Powers - Journal of Machine Learning Technology 2 (1): 37-63. http://dspace2.flinders.edu.au/xmlui/handle/2328/27165 Cytowany przez 1749

2012 Problem z kappa. DMW Powers - Materiały z 13. Konferencji Europejskiej ACL: 345-355 https://dl.acm.org/citation.cfm?id=2380859 Cytowany przez 63

2012 ROC-ConCert: oparty na ROC pomiar spójności i pewności. DMW Powers - Wiosenny kongres inżynierii i technologii (S-CET) 2: 238-241 http://www.academia.edu/download/31939951/201203-SCET30795-ROC-ConCert-PID1124774.pdf Cytowany przez 5

2013 ADABOOK & MULTIBOOK:: Adaptacyjne doładowanie z korekcją szansy. DMW Powers- Międzynarodowa konferencja ICINCO na temat informatyki w zakresie sterowania, automatyki i robotyki http://www.academia.edu/download/31947210/201309-AdaBook-ICINCO-SCITE-Harvard-2upcor_poster.pdf

https://www.dropbox.com/s/artzz1l3vozb6c4/weka.jar (goes into Java Class Path)
https://www.dropbox.com/s/dqws9ixew3egraj/wekagui   (GUI start script for Unix)
https://www.dropbox.com/s/4j3fwx997kq2xcq/wekagui.bat  (GUI shortcut on Windows)

Cytowany przez 4

— David MW Powers
źródło

> „obszar pod krzywą reprezentuje rankingowość lub prawdopodobieństwo prawidłowego rankingu par” „Myślę, że właśnie tam się nie zgadzamy - ROC tylko pokazuje jakość rankingu na wykresie . Jednak w przypadku AUC PR jest to pojedyncza liczba, która natychmiast mówi mi, który ranking jest lepszy (tj. Ten wynik I jest lepszy niż wynik II). AUC ROC nie ma tej właściwości.

— fnl

Wynik dominacji fnl cytuje oznacza, że GDY DEFINIOWANE, jeśli jedna krzywa dominuje w ROC, to robi to w PR i odwrotnie, a to oznacza, że ma również większą powierzchnię w obu, a zatem nie ma jakościowej różnicy między ROC i PR AUC. Cytat o rankingowości (Mann-Whitney U) jest dobrze ustalonym ilościowym prawdopodobieństwem ponownego wyniku (część testu istotności), który został zalecony całkiem niezależnie od ROC, ale później stwierdzono, że AUC ROC. Podobnie informowanie zostało pierwotnie zdefiniowane niezależnie, a później udowodniono, że odpowiada wysokości punktu operacyjnego ROC. PR nie ma takich wyników.

— David MW Powers

Jak powiedziałem wcześniej, jest to tylko kwestia skalowania w warunkach dominacji („znacznie większa”, ponieważ pomnożona przez dużą liczbę, jak wyjaśniam szczegółowo), ale w warunkach braku dominacji AUC PR wprowadza w błąd, a AUC ROC jest tym jedynym który ma odpowiednią interpretację probabilistyczną (Mann-Whitney U lub Rankingness), z przypadkiem pojedynczego punktu operacyjnego odpowiadającym Gini (lub równoważnie J lub Informowanie Youdena, po skalowaniu).

— David MW Powers

Jeśli dla uproszczenia weźmiemy pod uwagę AUC dla pojedynczego punktu operacyjnego (SOC), to Współczynnik Giniego = AUC = (TP / RP + TN / RN) / 2 i Informatywność = Youden J = TP / RP + TN / RN - 1 = Czułość + Swoistość -1 = TPR + TNF -1 = Przywołanie + Odwrotne przywołanie - 1 itd. Maksymalizacja jednego z nich jest równoważna, ale to drugie jest prawdopodobieństwem świadomej decyzji (celowo niewłaściwej, jeśli -ve). Jeśli zarówno RN, jak i TN idą do nieskończoności za pomocą TN >> FP, to TN / RN -> 1 i anuluje, więc Informowanie = Przywołaj w cytowanych przypadkach. Jeśli zamiast tego ogromną klasą są RP i TP >> FN, to TP / RP -> 1 i Informowanie = Odwrotne Odwołanie. Zobacz referencje

— David MW Powers

To bardzo pomocna odpowiedź David Powers. Ale wybacz moją ignorancję, kiedy mówisz: „Zasadniczo nie ma potrzeby używania krzywej kompromisu PR i można po prostu powiększyć krzywą ROC, jeśli wymagane są szczegóły.”, Jak dokładnie to zrobić i czy mógłbyś podać więcej szczegóły na temat tego, co masz na myśli? Czy to oznacza, że mogę w jakiś sposób użyć krzywej ROC w przypadku poważnie niezrównoważonego? „Nadanie FPR lub TPR większej masy spowodowałoby wynik AUC ROC z większymi różnicami wyników, doskonały punkt!” Jak to zrobić wtedy z moim ROC?

— Christopher John