Trenuję regresję logistyczną, aby przewidzieć, którzy biegacze najprawdopodobniej zakończą wyczerpujący wyścig wytrzymałościowy.
Bardzo niewielu biegaczy kończy wyścig, więc mam poważny brak równowagi klas i małą próbkę sukcesów (może kilkadziesiąt). Czuję, że mógłbym uzyskać dobry „sygnał” od dziesiątek biegaczy, którzy prawie to zrobili. (Moje dane treningowe mają nie tylko ukończenie, ale także to, jak daleko dotarły te, które nie zostały ukończone.) Zastanawiam się więc, czy to okropny pomysł, czy nie zawierać „częściowego zaliczenia”. Wymyśliłem kilka funkcji częściowego uznania, rampy i krzywej logistycznej, które można przypisać różnym parametrom.
Jedyną różnicą w stosunku do regresji byłoby to, że używałbym danych treningowych do przewidywania zmodyfikowanego, ciągłego wyniku zamiast wyniku binarnego. Porównując ich przewidywania na zestawie testowym (przy użyciu odpowiedzi binarnej), miałem dość niejednoznaczne wyniki - częściowe uznanie logistyczne wydawało się nieznacznie poprawić R-kwadrat, AUC, P / R, ale była to tylko jedna próba na jeden przypadek użycia przy użyciu mała próbka.
Nie dbam o to, aby prognozy były jednakowo tendencyjne do ukończenia - zależy mi na prawidłowym uszeregowaniu zawodników pod względem prawdopodobieństwa ukończenia, a może nawet oszacowaniu ich względnego prawdopodobieństwa ukończenia.
Rozumiem, że regresja logistyczna zakłada liniową zależność między predyktorami a logarytmem ilorazu szans i oczywiście ten stosunek nie ma prawdziwej interpretacji, jeśli zacznę zadzierać z wynikami. Jestem pewien, że nie jest to mądre z teoretycznego punktu widzenia, ale może pomóc uzyskać dodatkowy sygnał i zapobiec przeregulowaniu. (Mam prawie tyle samo predyktorów, co sukcesy, więc może być pomocne użycie relacji z częściowym ukończeniem jako kontroli relacji z pełnym ukończeniem).
Czy takie podejście jest kiedykolwiek stosowane w odpowiedzialnej praktyce?
Tak czy inaczej, czy istnieją inne typy modeli (może coś, co wyraźnie modeluje stopień zagrożenia, stosowany w odniesieniu do odległości zamiast czasu), które mogą być lepiej dostosowane do tego rodzaju analizy?