Czy kiedykolwiek dobrym pomysłem jest „częściowe uznanie” (ciągły wynik) szkolenia regresji logistycznej?

Trenuję regresję logistyczną, aby przewidzieć, którzy biegacze najprawdopodobniej zakończą wyczerpujący wyścig wytrzymałościowy.

Bardzo niewielu biegaczy kończy wyścig, więc mam poważny brak równowagi klas i małą próbkę sukcesów (może kilkadziesiąt). Czuję, że mógłbym uzyskać dobry „sygnał” od dziesiątek biegaczy, którzy prawie to zrobili. (Moje dane treningowe mają nie tylko ukończenie, ale także to, jak daleko dotarły te, które nie zostały ukończone.) Zastanawiam się więc, czy to okropny pomysł, czy nie zawierać „częściowego zaliczenia”. Wymyśliłem kilka funkcji częściowego uznania, rampy i krzywej logistycznej, które można przypisać różnym parametrom.

Jedyną różnicą w stosunku do regresji byłoby to, że używałbym danych treningowych do przewidywania zmodyfikowanego, ciągłego wyniku zamiast wyniku binarnego. Porównując ich przewidywania na zestawie testowym (przy użyciu odpowiedzi binarnej), miałem dość niejednoznaczne wyniki - częściowe uznanie logistyczne wydawało się nieznacznie poprawić R-kwadrat, AUC, P / R, ale była to tylko jedna próba na jeden przypadek użycia przy użyciu mała próbka.

Nie dbam o to, aby prognozy były jednakowo tendencyjne do ukończenia - zależy mi na prawidłowym uszeregowaniu zawodników pod względem prawdopodobieństwa ukończenia, a może nawet oszacowaniu ich względnego prawdopodobieństwa ukończenia.

Rozumiem, że regresja logistyczna zakłada liniową zależność między predyktorami a logarytmem ilorazu szans i oczywiście ten stosunek nie ma prawdziwej interpretacji, jeśli zacznę zadzierać z wynikami. Jestem pewien, że nie jest to mądre z teoretycznego punktu widzenia, ale może pomóc uzyskać dodatkowy sygnał i zapobiec przeregulowaniu. (Mam prawie tyle samo predyktorów, co sukcesy, więc może być pomocne użycie relacji z częściowym ukończeniem jako kontroli relacji z pełnym ukończeniem).

Czy takie podejście jest kiedykolwiek stosowane w odpowiedzialnej praktyce?

Tak czy inaczej, czy istnieją inne typy modeli (może coś, co wyraźnie modeluje stopień zagrożenia, stosowany w odniesieniu do odległości zamiast czasu), które mogą być lepiej dostosowane do tego rodzaju analizy?

logistic binary-data continuous-data

— C8H10N4O2
źródło

To wydaje się być zadaniem do analizy przeżycia, takiej jak proporcjonalna analiza zagrożeń Coxa lub ewentualnie jakiś parametryczny model przeżycia.

Pomyśl o tym problemie w odwrotnej kolejności niż to, co wyjaśniasz: jakie zmienne predykcyjne są powiązane z wcześniejszymi odległościami do rzucenia palenia ?

Wyjście jest wydarzeniem. Pokonywany dystans można uznać za równoważny czasowi do zdarzenia w standardowej analizie przeżycia. Masz wtedy liczbę zdarzeń równą liczbie osób, które odeszły, więc twój problem z ograniczoną liczbą predyktorów zmniejszy się. Wszyscy, którzy rezygnują, udzielają informacji.

Model Coxa, jeśli działa na twoich danych, dostarczy predyktor liniowy na podstawie wszystkich wartości zmiennych predykcyjnych, uszeregując uczestników według kolejności przewidywanych odległości do rzucenia.

— EdM
źródło

Dzięki za to. Wygląda na to, że mówisz, że używając modelu Coxa, biegacze z najdłuższą przewidywaną odległością do rzucenia są również najmniej skłonni do rzucenia się przed końcem dystansu, ze względu na proporcjonalną konstrukcję zagrożeń. Czy to jest dokładne? Ponadto, skoro polecasz to, zgadywanie, że pomysł częściowego kredytu nie był dla ciebie tak uzasadniony?

— C8H10N4O2

To w zasadzie poprawne. Widzę, że uwzględnienie odległości do rzucenia palenia w modelu przetrwania jest sposobem na „częściowe uznanie” w sposób, który ma dobrze ugruntowane teoretyczne i praktyczne uzasadnienie. Nie analizowałem szczegółów, ale podejrzewam, że osiąga to dokładnie to, co zamierzałeś, jak pokazano na twoim wykresie.

— EdM,