Model Coxa a regresja logistyczna

Powiedzmy, że mamy następujący problem:

Wytypuj, którzy klienci najprawdopodobniej przestaną kupować w naszym sklepie w ciągu najbliższych 3 miesięcy.
Dla każdego klienta znamy miesiąc, w którym zaczęliśmy kupować w naszym sklepie, a ponadto mamy wiele funkcji behawioralnych w agregatach miesięcznych. „Najstarszy” klient kupuje od pięćdziesięciu miesięcy; oznaczmy czas, od którego klient zaczął kupować do ( ). Można założyć, że liczba klientów jest bardzo duża. Jeśli klient przestanie kupować przez trzy miesiące, a następnie wróci, wówczas jest traktowany jak nowy klient, więc zdarzenie (przestań kupować) może wystąpić tylko raz. $t$ $t \in [0, 50]$

Przychodzą mi na myśl dwa rozwiązania:

Regresja logistyczna - dla każdego klienta i każdego miesiąca (może poza 3 ostatnimi miesiącami) możemy powiedzieć, czy klient przestał kupować, czy nie, dzięki czemu możemy wykonać ciągłe próbki z jedną obserwacją na klienta i miesiąc. Możemy wykorzystać liczbę miesięcy od początku jako zmienną kategoryczną, aby uzyskać ekwiwalent podstawowej funkcji zagrożenia.

Rozszerzony model Coxa - ten problem można również modelować przy użyciu rozszerzonego modelu Coxa. Wydaje się, że ten problem bardziej nadaje się do analizy przeżycia.

Pytanie: Jakie są zalety analizy przeżycia w podobnych problemach? Analiza przeżycia została wynaleziona z jakiegoś powodu, więc musi istnieć poważna zaleta.

Moja wiedza na temat analizy przeżycia nie jest bardzo głęboka i myślę, że większość potencjalnych zalet modelu Coxa można również osiągnąć za pomocą regresji logistycznej.

Odpowiednik stratyfikowanego modelu Coxa można uzyskać za pomocą interakcji i zmiennej stratyfikacyjnej. $t$
Model interakcji Coxa można uzyskać poprzez zanurzenie populacji w kilku subpopulacjach i oszacowanie LR dla każdej subpopulacji.

Jedyną zaletą, jaką widzę, jest to, że model Coxa jest bardziej elastyczny; na przykład możemy łatwo obliczyć prawdopodobieństwo, że klient przestanie kupować za 6 miesięcy.

logistic survival cox-model

— Tomek Tarczyński
źródło

Odpowiedzi:

Problem z modelem Coxa polega na tym, że nic nie przewiduje. „Przechwytywanie” (podstawowa funkcja hazardu) w modelach Coxa nigdy nie jest faktycznie szacowane. W tym przypadku można zastosować regresję logistyczną, aby przewidzieć ryzyko lub prawdopodobieństwo wystąpienia jakiegoś zdarzenia, w tym przypadku: niezależnie od tego, czy pacjent przyjdzie kupić coś w określonym miesiącu.

Problem z założeniami leżącymi u podstaw zwykłej regresji logistycznej polega na tym, że każdą obserwację osobo-miesięczną traktujesz jako niezależną, niezależnie od tego, czy była to ta sama osoba, czy ten sam miesiąc, w którym obserwacje miały miejsce. Może to być niebezpieczne, ponieważ niektóre przedmioty są kupowane w odstępach dwumiesięcznych, więc obserwacje kolejnych osób są miesięcznie ujemnie skorelowane. Alternatywnie, klient może zostać zatrzymany lub utracony przez dobre lub złe doświadczenia, prowadząc kolejne osoby według miesięcy, obserwacje są dodatnio skorelowane.

Myślę, że dobrym początkiem tego problemu z prognozowaniem jest podejście do prognozowania, w którym możemy wykorzystać wcześniejsze informacje do poinformowania naszych prognoz na temat działalności w przyszłym miesiącu. Prostym początkiem tego problemu jest dostosowanie się do efektu opóźnionego lub wskaźnik tego, czy pacjent przybył w ostatnim miesiącu, jako prognozy tego, czy może przybyć w tym miesiącu.

— AdamO
źródło

Czy nie można tutaj zastosować wielopoziomowej regresji logistycznej do rozwiązania problemu niezależności? Poziom 2 to klienci, a poziom 1 to powtarzane pomiary w miarę upływu czasu.

— Forinstance

@AdamO, punkt przecięcia można oszacować, a w połączeniu z prognozą częściowego zagrożenia danej osoby możemy stworzyć indywidualne krzywe przeżycia. Nie jestem pewien, dlaczego według ciebie model Coxa może przewidzieć „nic”.

— Cam.Davidson.Pilon

δ

$\delta$

Do celów przewidywania uważam, że nie są to blokery. Nie jest niczym niezwykłym łączenie wielu oszacowań w celu stworzenia pojedynczej prognozy, a (niestety i nie jestem zwolennikiem) przedziały prognozowania nie są powszechnie używane ani dostępne.

— Cam.Davidson.Pilon

@ Cam.Davidson.Pilon Nie powiedziałem, że prognoz ryzyka nie można uzyskać z danych dotyczących przeżycia, powiedziałem, że modele Coxa nie przewidują ryzyka. Kroki między telefonowaniem coxpha uzyskiwaniem oszacowań ryzyka są strome i liczne.

— AdamO,

$T_j$ $j$ $\Pr(T_j > 3)$ $j$ $3$

Analiza przeżycia uwzględnia fakt, że każdy klient ma swój własny czas na wejście do badania. Dlatego fakt, że okres obserwacji różni się w zależności od klienta, nie stanowi problemu.

$j$

Uwaga : oto artykuł, który pokazuje, że pod pewnymi ograniczeniami zarówno model logistyczny, jak i model Coxa są ze sobą powiązane.

— ocram
źródło

Dziękuję za odpowiedź. Jeśli SA odpowiednio obsługuje cenzurę, oznacza to, że rozwiązanie LR nie obsługuje poprawnie cenzury. Jak to wynikło? Nadal nie mogę się przekonać, że SA jest lepsza na określony czas. Czy mogę znaleźć gdzieś ten artykuł za darmo?

— Tomek Tarczynski

Y = 0

$Y = 0$

Mój e-mail to: tomek.tarczynski@gmail.com Dziękuję bardzo!

— Tomek Tarczynski

@TomekTarczynski: otrzymał?

— ocram

Tak, jeszcze raz dziękuję! Jutro będę miał czas na dokładniejsze przeczytanie. Właśnie go przejrzałem i jeśli dobrze zrozumiałem, rozwiązuje to nieco inny problem. Korzystając z analogii sklepu porównuje LR i COX z problemem „Jakie jest prawdopodobieństwo, że klient nie będzie już klientem po ustalonej liczbie miesięcy od początku?”

— Tomek Tarczynski

Literatura marketingowa sugeruje Pareto / NBD tutaj lub podobny. Zasadniczo zakładasz, że zakup - podczas gdy oni kupują - jest zgodny z ujemnym rozkładem dwumianowym. Ale musisz modelować czas, w którym klient przestaje. To druga część.

Pete Fader i Bruce Hardie mają na ten temat kilka dokumentów, wraz z Abe.

Istnieje kilka prostszych podejść do Pareto / NBD, nawet licząc różne artykuły Fadera i Hardie. NIE używaj prostszego podejścia, w którym zakłada się, że prawdopodobieństwo zatrzymania jest stałe w każdym punkcie czasu - oznacza to, że twoi ciężsi klienci częściej wypadają wcześniej. Jest to prostszy model do dopasowania, ale źle.

Od jakiegoś czasu nie pasowałem do żadnego z nich; przepraszam, że jestem trochę niespecyficzny.

Oto odniesienie do artykułu Abe, który przekształca ten problem w hierarchicznego Bayesa. . Gdybym znów pracował w tej dziedzinie, sądzę, że przetestowałbym to podejście.

— zbicyclist
źródło