Modelowanie, gdy zmienna zależna ma „punkt odcięcia”

Z góry przepraszamy, jeśli jakakolwiek terminologia, której używam, jest niepoprawna. Z zadowoleniem przyjąłbym każdą korektę. Jeśli to, co opisuję jako „punkt odcięcia”, ma inną nazwę, daj mi znać, a mogę zaktualizować pytanie.

Interesuje mnie sytuacja: masz zmienne niezależne i jedną zmienną zależną . Pozostawię to niejasne, ale zakładam, że uzyskanie modelu regresji dla tych zmiennych byłoby stosunkowo proste. $\bf{x}$ $y$

Jednak model, który zamierzasz stworzyć, jest dla zmiennych niezależnych $\bf{x}$ i zmiennej zależnej $w = \min(y,a)$ , gdzie $a$ jest pewną stałą wartością z zakresu $y$ . Podobnie dane, do których masz dostęp, nie obejmują $y$ , tylko $w$ .

(Trochę nierealistycznym) przykładem tego może być próba modelowania, przez ile lat ludzie będą pobierać swoją emeryturę. W takim przypadku $\bf{x}$ może być istotną informacją, taką jak płeć, waga, godziny ćwiczeń tygodniowo itp. Zmienną „podstawową” $y$ będzie oczekiwana długość życia. Jednak zmienną, do której miałbyś dostęp i którą próbujesz przewidzieć w swoim modelu, byłoby $w = \min(0, y-r)$ gdzie r jest wiekiem emerytalnym (zakładając dla uproszczenia, że jest ustalony).

Czy istnieje dobre podejście do radzenia sobie z tym w modelowaniu regresji?

— Ben Aaronson
źródło

Nie jestem pewien, ale brzmi to tak, jakby można było to osiągnąć dzięki pewnym wariantom analizy przeżycia. 1) Obejmuje cenzurę 2) Przynajmniej w twoim przypadku wymaga czasu. Ale byłby raczej cenzurowany w lewo niż cenzurowany w prawo (co jest bardziej powszechne). Jeśli się ze mną zgadzasz, możesz dodać tag przetrwania i sprawdzić, czy ktoś na niego wskoczy.

— Peter Flom - Przywróć Monikę

@ Peter To dla mnie wygląda dobrze ocenzurowane. Strona, po której występuje cenzura, ma niewielkie znaczenie, ponieważ poprzez zanegowanie zmiennej zależnej przełącza się między cenzurą prawą i lewą.

— whuber

@ whuber Myślę, że masz rację. Ale, jak mówisz, cenzura może się łatwo zmienić.

— Peter Flom - Przywróć Monikę

Wydaje się, że przykład przejścia na emeryturę wymaga modelu danych zliczania (jeśli chcesz zaokrąglić całe lata i dopóki wszyscy są martwi do czasu uruchomienia analizy). Podejście do zmiennej utajonej wydaje się z tym rozciągać, ponieważ czas nie może być ujemny.

— Dimitriy V. Masterov

Ten rodzaj modelu nosi kilka nazw, w zależności od dyscypliny i obszaru tematycznego. Typowymi nazwami dla tego są Cenzurowane Zmienne Zależne, Skrócone Zmienne Zależne, Ograniczone Zmienne Zależne, Analiza Przeżycia, Tobit i Cenzurowana Regresja. Prawdopodobnie pomijam kilka innych nazwisk.

Sugerowana przez ciebie konfiguracja, w której obserwuje się nazywa się „prawą cenzurą ”, ponieważ wartości zbyt daleko w prawo na linii rzeczywistej są cenzurowane --- zamiast tego widzimy tylko punkt cenzury, . $\min\{y_i,a\}$ $y_i$ $a$

Jednym ze sposobów radzenia sobie z takimi danymi jest użycie ukrytych zmiennych (i to w zasadzie to, co proponujesz). Oto jeden ze sposobów postępowania:

\begin{aligned} y_{i} & = x_{i}^{'} β + ε_{i} \\ w_{i} & = min {y_{i}, a} \\ ε_{i} & \sim N (0, σ^{2}) i i d \end{aligned}

$\begin{align} y_i &= x_i'\beta+\varepsilon_i\\ w_i &= \min\{y_i, a\}\\ \varepsilon_i &\sim N(0,\sigma^2)\; \ {\rm iid} \end{align}$

Następnie możesz to przeanalizować według maksymalnego prawdopodobieństwa. Obserwacje, w których występuje cenzura, przyczyniają się do w funkcji prawdopodobieństwa, a obserwacje, w których nie występuje cenzura, przyczyniają się do do funkcji prawdopodobieństwa. CDF standardowej normalnej wynosi a gęstość standardowej normalnej wynosi . Tak więc funkcja wiarygodności wygląda następująco: $P\{y_i>a\}=\Phi(\frac{1}{\sigma}x_i'\beta-a)$ $\frac{1}{\sigma}\phi((y_i-x_i'\beta)/\sigma)$ $\Phi$ $\phi$

\begin{aligned} L (β, σ) & = \prod_{i \in censored} Φ (\frac{1}{σ} x_{i}^{'} β - a) \prod_{i \notin censored} \frac{1}{σ} ϕ ((y_{i} - x_{i}^{'} β) / σ) \end{aligned}

$\begin{align} L(\beta,\sigma) &= \prod_{i\ \in\ \text{censored}} \Phi\left(\frac{1}{\sigma}x_i'\beta-a\right) \prod_{i\ \not\in\ \text{censored}} \frac{1}{\sigma}\phi\big((y_i-x_i'\beta)/\sigma\big) \end{align}$

Szacujesz i , maksymalizując to. Otrzymujesz błędy standardowe jako zwykłe błędy maksymalnego prawdopodobieństwa. $\beta$ $\sigma$

Jak można sobie wyobrazić, jest to tylko jedno podejście spośród wielu.

— Rachunek
źródło

+1 Pracujący przykład rozwiązania ML pojawia się na stronie stats.stackexchange.com/questions/49443 .

— whuber

@whuber To ładna ekspozycja.

— Bill