PRZEDMOWA: Nie dbam o zalety zastosowania odcięcia lub nie, ani o to, jak należy wybrać odcięcie. Moje pytanie jest czysto matematyczne i wynika z ciekawości.
Regresja logistyczna modeluje prawdopodobieństwo warunkowe tylne klasy A w porównaniu z klasą B i pasuje do hiperpłaszczyzny, w której prawdopodobieństwa warunkowe tylne są równe. Teoretycznie zrozumiałem, że punkt klasyfikacji 0,5 zminimalizuje błędy całkowite niezależnie od ustawionej równowagi, ponieważ modeluje prawdopodobieństwo późniejsze (zakładając, że konsekwentnie napotykasz ten sam stosunek klas).
W moim prawdziwym przykładzie osiągam bardzo słabą dokładność, stosując P> 0,5 jako moją wartość graniczną klasyfikacji (około 51% dokładności). Jednak gdy spojrzałem na AUC, wynosi on powyżej 0,99. Spojrzałem więc na różne wartości odcięcia i stwierdziłem, że P> 0,6 daje mi 98% dokładności (90% dla mniejszej klasy i 99% dla większej klasy) - tylko 2% przypadków błędnie zaklasyfikowanych.
Klasy są mocno niezrównoważone (1: 9) i jest to problem wielowymiarowy. Jednak przypisałem klasy równo do każdego zestawu walidacji krzyżowej, aby nie było różnicy między równowagą klas między dopasowaniem modelu a prognozowaniem. Próbowałem również użyć tych samych danych z dopasowania modelu i prognoz, i wystąpił ten sam problem.
Interesuje mnie powód, dla którego 0,5 nie zminimalizuje błędów, pomyślałem, że byłoby to zgodne z projektem, jeśli model jest dopasowany przez zminimalizowanie utraty entropii.
Czy ktoś ma jakieś uwagi na temat tego, dlaczego tak się dzieje? Czy to z powodu dodania kary, czy ktoś może wyjaśnić, co się dzieje?