Najlepszy sposób na połączenie odpowiedzi binarnej i ciągłej

Staram się znaleźć najlepszy sposób, aby przewidzieć kwotę płatności dla agencji windykacyjnej. Zmienna zależna jest różna od zera tylko po dokonaniu płatności. Zrozumiałe jest, że istnieje ogromna liczba zer, ponieważ większość ludzi nie jest w stanie dotrzeć lub nie jest w stanie spłacić długu.

Istnieje również bardzo silna ujemna korelacja między kwotą długu a prawdopodobieństwem dokonania płatności. Zazwyczaj tworzyłbym model logistyczny, aby przewidzieć prawdopodobieństwo wypłaty / wypłaty, ale ma to niefortunną konsekwencję znalezienia osób o najniższych saldach.

Czy istnieje sposób na połączenie logistycznego modelu płatnego / niepłaconego z osobnym modelem przewidującym kwotę płatności?

regression predictive-models logistic

— Zelazny7
źródło

Istnieje regresja logarytmiczno-normalna, która wydaje się pasować do twoich potrzeb. Zobacz ten artykuł

— Peter Flom

@PeterFlom, jak twoim zdaniem porównuje się to z dyskusją gui11aume i steffen na temat dwuetapowego modelu i błędu selekcji próbek?

— As3adTintin

Myślę, że oba mogą być przydatne. Dyskutowano o porównaniu tych dwóch, ale zapominam, gdzie je przeczytałem.

— Peter Flom

Ostatecznie stworzyłem sieć neuronową z aktywacją relu dla wyjścia i średnią kwadratową stratą logarytmiczną

— Zelazny7

ok dzięki. dźwięk aktywacji sieci neuronowej / relu przekroczył moją obecną wiedzę, ale nadal będę je analizować. dziękuję za zadanie oryginalnego pytania i za komentarze!

— As3adTintin

Odpowiedzi:

Pomysł na zbudowanie modelu dwustopniowego jest właściwą drogą, jednak należy wziąć pod uwagę szczególną trudność konfiguracji, którą jest bardzo silną ujemną korelację między kwotą zadłużenia a prawdopodobieństwem dokonania płatności

Podstawową kwestią przy budowaniu tutaj dwustopniowego modelu jest to, że drugi model (do prognozowania długu), zbudowany wyłącznie na „zerach”, jest oparty na najbardziej prawdopodobnej nielosowej próbie populacji ( tj. cały zestaw danych), ale połączony model należy ponownie zastosować do całej populacji. Oznacza to, że drugi model będzie musiał przewidzieć części danych, których nigdy wcześniej nie widział, co spowoduje utratę dokładności. Nazywa się to uprzedzeniem wyboru próbki (dla przeglądu z perspektywy ML polecam A Bayesian Network Framework for Reject Inference by Smith and Elkan).

Puchar KDD-98 do czynienia z podobnym problemie gdzie należałoby przewidzieć, czy dawca dla organizacji weteranów jest prawdopodobne, aby ponownie oddać i ile jest prawdopodobne, aby podarować. W tym zestawie danych prawdopodobieństwo ponownego przekazania darowizny również było ujemnie skorelowane z oczekiwaną kwotą pieniędzy. Pojawiło się również odchylenie wyboru próbki.

Rozwiązanie, które wywarło na mnie największe wrażenie, znajduje się w Nauce i podejmowaniu decyzji, gdy zarówno koszty, jak i prawdopodobieństwa są nieznane przez Biancę Zadrożnego i Charlesa Elkan. Stworzyli rozwiązanie wrażliwe na koszty w oparciu o korektę Heckmana , która według mojej wiedzy jest pierwszym systematycznym podejściem do korygowania błędu selekcji (próbki).

— steffen
źródło

+1 Twój drugi akapit bardzo ładnie podkreśla coś, czego brakuje w mojej odpowiedzi.

— gui11aume

Jak to porównać z sugestią Petera Floma dotyczącą regresji logarytmiczno-normalnej z zerowym napełnieniem?

— As3adTintin

To bardzo miłe pytanie (+1).

Dlaczego nie traktować zer tak, jakby były NA?

Możesz dodać fałszywą odpowiedź wskazującą, czy jakieś pieniądze zostały odzyskane ( tj Równe 0, gdy wartość wynosi 0, i 1, gdy wartość jest dodatnia) i dopasować model logistyczny do tej odpowiedzi binarnej z tymi samymi predyktorami. Pasowałbyś do 2 modeli: odpowiedź binarna wykorzystująca wszystkie punkty danych i odpowiedź ciągła wykorzystująca tylko niezerowe punkty danych (zgodnie z ideą traktowania 0 jako NA).

Nadal możesz przetestować nieważność parametrów w każdym modelu i obliczyć oczekiwane wzmocnienie, używając obu zestawów parametrów.

— gui11aume
źródło

Dziękuję za sugestię. Przed moim pytaniem utworzyłem dwie zmienne zależne i zestawy danych podobne do tego, co opisujesz. Czy potrafisz wyjaśnić, co rozumiesz przez „nadal nieważność paramentów”? Dzięki!

— Zelazny7

„Wciąż nieważność parametrów” to literówka, którą poprawiłem w tekście. Przepraszam za to :-)

— gui11aume