Funkcja ROC (niekoniecznie jest to krzywa) pozwala ocenić zdolność do dyskryminacji zapewnianą przez określony model statystyczny (składający się ze zmiennej predykcyjnej lub ich zestawu).
Głównym rozważaniem ROC jest to, że prognozy modelu nie wynikają jedynie ze zdolności modelu do rozróżniania / dokonywania prognoz na podstawie dowodów dostarczonych przez zmienne predykcyjne. Działają również kryteria odpowiedzi, które określają, ile dowodów jest potrzebnych do tego, aby model przewidział odpowiedź i jaki jest wynik tych odpowiedzi. Wartość ustalona dla kryteriów odpowiedzi będzie miała duży wpływ na przewidywania modelu, a ostatecznie na rodzaj błędów, jakie popełni.
Rozważ ogólny model ze zmiennymi predykcyjnymi i kryteriami odpowiedzi. Ten model próbuje przewidzieć obecność X, odpowiadając Tak lub Nie. Masz więc następującą macierz nieporozumień:
**X present X absent**
**Model Predicts X Present** Hit False Alarm
**Model Predicts X Absent** Miss Correct Rejection
W tej matrycy wystarczy wziąć pod uwagę proporcję trafień i fałszywych alarmów (ponieważ inne można wyprowadzić z nich, biorąc pod uwagę, że mają one do 1). Dla każdego kryterium odpowiedzi będziesz mieć inną macierz dezorientacji. Błędy (braków i fałszywych alarmów) są negatywnie powiązane, co oznacza, że kryteria odpowiedzi, które minimalizują fałszywe alarmy, maksymalizują błędy i odwrotnie. Wiadomość jest taka: nie ma darmowego lunchu.
Tak więc, aby zrozumieć, jak dobrze model rozróżnia przypadki / dokonuje prognoz, niezależnie od ustalonych kryteriów odpowiedzi, wykreślasz liczbę trafień i fałszywych wskaźników w zakresie możliwych kryteriów odpowiedzi.
To, co otrzymujesz z tego wykresu, to funkcja ROC. Obszar pod funkcją zapewnia obiektywną i nieparametryczną miarę zdolności dyskryminacji modelu. Środek ten jest bardzo ważny, ponieważ nie zawiera żadnych nieporozumień, które mogłyby wyniknąć z kryteriów odpowiedzi.
Drugim ważnym aspektem jest to, że analizując funkcję, można określić, które kryteria reakcji są lepsze dla twoich celów. Jakie rodzaje błędów chcesz uniknąć i jakie są błędy, są OK. Rozważmy na przykład test na HIV: jest to test, który wyszukuje jakiś dowód (w tym przypadku przeciwciała) i dokonuje dyskryminacji / prognozy na podstawie porównania dowodów z kryterium odpowiedzi. To kryterium odpowiedzi jest zwykle ustawione na bardzo niskim poziomie, aby zminimalizować straty. Oczywiście spowoduje to więcej fałszywych alarmów, które mają koszt, ale koszt jest nieistotny w porównaniu z błędami.
Dzięki ROCs możesz ocenić zdolność dyskryminacji niektórych modeli, niezależnie od kryteriów reakcji, a także ustalić optymalne kryteria reakcji, biorąc pod uwagę potrzeby i ograniczenia wszystkiego, co mierzysz. Testy takie jak hi-square nie mogą w tym pomóc, ponieważ nawet jeśli testujesz, czy prognozy są na poziomie prawdopodobieństwa, wiele różnych par trafień fałszywych alarmów jest zgodnych z poziomem szansy.
Niektóre struktury, takie jak teoria wykrywania sygnału, zakładają z góry, że dowody dostępne do dyskryminacji mają specyficzny rozkład (np. Rozkład normalny lub rozkład gamma). Kiedy te założenia się utrzymują (lub są dość bliskie), dostępne są naprawdę fajne środki, które ułatwią ci życie.
mam nadzieję, że pomoże to wyjaśnić zalety ROC