Mam wyszkolony model regresji logistycznej, który stosuję do testowanego zestawu danych. Zmienna zależna jest binarna (boolean). Dla każdej próbki w zestawie danych testowych stosuję model regresji logistycznej, aby wygenerować% prawdopodobieństwa, że zmienna zależna będzie prawdziwa. Następnie rejestruję, czy wartość rzeczywista była prawdziwa, czy fałszywa. Ja próbuje obliczyć lub regulowane R 2 postać jak w modelu regresji liniowej.
To daje mi zapis dla każdej próbki w zestawie testowym, taki jak:
prob_value_is_true acutal_value
.34 0
.45 1
.11 0
.84 0
.... ....
Zastanawiam się, jak przetestować dokładność modelu. Moja pierwsza próba polegała na użyciu tabeli awaryjnej i powiedzeniu „jeśli prob_value_is_true
> 0,80, zgadnij, że rzeczywista wartość jest prawdziwa”, a następnie zmierz stosunek poprawności do niepoprawnej klasyfikacji. Ale to mi się nie podoba, ponieważ wydaje mi się, że oceniam 0,80 jako granicę, a nie dokładność modelu jako całości i wszystkich prob_value_is_true
wartości.
Następnie próbowałem po prostu spojrzeć na każdą dyskretną wartość prob_value_is_true, na przykład, patrząc na wszystkie próbki, gdzie prob_value_is_true
= 0,34 i mierząc% tych próbek, w których wartość ostra jest prawdziwa (w tym przypadku idealna dokładność byłaby, gdyby% próbek to prawda = 34%). Mógłbym stworzyć wynik dokładności modelu, sumując różnicę przy każdej dyskretnej wartościprob_value_is_true
. Ale rozmiary próbek są tutaj dużym problemem, szczególnie w skrajnościach (bliskie 0% lub 100%), tak że średnie wartości rzeczywistych nie są dokładne, więc użycie ich do pomiaru dokładności modelu nie wydaje się właściwe.
Próbowałem nawet tworzyć ogromne zakresy, aby zapewnić wystarczające rozmiary próbek (0 -25, 0,5 -50, 0,5 -5,75, 0,75-1,0), ale jak zmierzyć „dobroć” tego% wartości rzeczywistej zaskakuje mnie . Powiedzmy, że wszystkie próbki, których wartość prob_value_is_true
wynosi od 0,25 do 0,50, mają średnio acutal_value
0,45. Czy to dobrze, skoro jest w zasięgu? Źle, ponieważ nie jest to blisko 37,5% (środek zakresu)?
Więc utknąłem na czymś, co wydaje się być łatwym pytaniem, i mam nadzieję, że ktoś może skierować mnie do zasobu lub metody obliczenia dokładności stastycznej dla modelu regresji logistycznej.