Powiedzmy, że mamy następujący problem:
Wytypuj, którzy klienci najprawdopodobniej przestaną kupować w naszym sklepie w ciągu najbliższych 3 miesięcy.
Dla każdego klienta znamy miesiąc, w którym zaczęliśmy kupować w naszym sklepie, a ponadto mamy wiele funkcji behawioralnych w agregatach miesięcznych. „Najstarszy” klient kupuje od pięćdziesięciu miesięcy; oznaczmy czas, od którego klient zaczął kupować do ( ). Można założyć, że liczba klientów jest bardzo duża. Jeśli klient przestanie kupować przez trzy miesiące, a następnie wróci, wówczas jest traktowany jak nowy klient, więc zdarzenie (przestań kupować) może wystąpić tylko raz.
Przychodzą mi na myśl dwa rozwiązania:
Regresja logistyczna - dla każdego klienta i każdego miesiąca (może poza 3 ostatnimi miesiącami) możemy powiedzieć, czy klient przestał kupować, czy nie, dzięki czemu możemy wykonać ciągłe próbki z jedną obserwacją na klienta i miesiąc. Możemy wykorzystać liczbę miesięcy od początku jako zmienną kategoryczną, aby uzyskać ekwiwalent podstawowej funkcji zagrożenia.
Rozszerzony model Coxa - ten problem można również modelować przy użyciu rozszerzonego modelu Coxa. Wydaje się, że ten problem bardziej nadaje się do analizy przeżycia.
Pytanie: Jakie są zalety analizy przeżycia w podobnych problemach? Analiza przeżycia została wynaleziona z jakiegoś powodu, więc musi istnieć poważna zaleta.
Moja wiedza na temat analizy przeżycia nie jest bardzo głęboka i myślę, że większość potencjalnych zalet modelu Coxa można również osiągnąć za pomocą regresji logistycznej.
- Odpowiednik stratyfikowanego modelu Coxa można uzyskać za pomocą interakcji i zmiennej stratyfikacyjnej.
- Model interakcji Coxa można uzyskać poprzez zanurzenie populacji w kilku subpopulacjach i oszacowanie LR dla każdej subpopulacji.
Jedyną zaletą, jaką widzę, jest to, że model Coxa jest bardziej elastyczny; na przykład możemy łatwo obliczyć prawdopodobieństwo, że klient przestanie kupować za 6 miesięcy.