Odpowiedzi:
Kiedy wykonujesz regresję logistyczną, dostajesz dwie klasy zakodowane jako i . Teraz obliczysz prawdopodobieństwa, że z pewnymi wariacjami wyjaśniającymi jednostka należy do klasy oznaczonej jako . Jeśli teraz wybierzesz próg prawdopodobieństwa i sklasyfikujesz wszystkie osoby o prawdopodobieństwie większym niż ten próg jako klasę i poniżej jako, w większości przypadków popełnisz pewne błędy, ponieważ zwykle nie można idealnie rozróżnić dwóch grup. Dla tego progu możesz teraz obliczyć swoje błędy oraz tak zwaną czułość i swoistość. Jeśli zrobisz to dla wielu progów, możesz zbudować krzywą ROC, wykreślając czułość względem 1-Specyficzności dla wielu możliwych progów. Obszar pod krzywą wchodzi w grę, jeśli chcesz porównać różne metody, które próbują rozróżnić dwie klasy, np. Analizę dyskryminacyjną lub model probitowy. Możesz zbudować krzywą ROC dla wszystkich tych modeli, a ten z najwyższym obszarem pod krzywą można uznać za najlepszy model.
Jeśli potrzebujesz głębszego zrozumienia, możesz również przeczytać odpowiedź na inne pytanie dotyczące krzywych ROC, klikając tutaj.
Model regresji logistycznej jest metodą bezpośredniego oszacowania prawdopodobieństwa. Klasyfikacja nie powinna odgrywać żadnej roli w jej stosowaniu. Każda klasyfikacja nieoparta na ocenie narzędzi (funkcja straty / kosztu) w odniesieniu do poszczególnych przedmiotów jest nieodpowiednia, z wyjątkiem bardzo szczególnych sytuacji awaryjnych. Krzywa ROC nie jest tu pomocna; nie są też czułością ani swoistością, które, podobnie jak ogólna dokładność klasyfikacji, są niewłaściwymi regułami punktacji dokładności, zoptymalizowanymi przez fałszywy model nieprzystosowany do oszacowania maksymalnego prawdopodobieństwa.
Zauważ, że osiągasz wysoką dyskryminację predykcyjną (wysoki wskaźnik (obszar ROC)) poprzez nadmiar danych. Potrzebujesz być może co najmniej obserwacji w najrzadziej kategorii , gdzie jest liczbą branych pod uwagę predyktorów kandydujących , aby uzyskać model, który nie jest znacząco przeładowany [tj. Model, który prawdopodobnie będzie działał na nowych danych mniej więcej tak samo, jak działało na danych szkoleniowych]. Aby oszacować punkt przecięcia, potrzebujesz co najmniej 96 obserwacji, aby przewidywane ryzyko miało margines błędu z ufnością 0,95.15 p Y p ≤ 0,05
Nie jestem autorem tego bloga i uważam go za niezwykle pomocny: http://fouryears.eu/2011/10/12/roc-area-under-the-curve-explained
Stosując to wyjaśnienie do swoich danych, średni pozytywny przykład ma około 10% negatywnych przykładów uzyskanych wyżej.