Resztki regresji logistycznej i odległości Cooka

10

Czy istnieją jakieś szczególne założenia dotyczące błędów regresji logistycznej, takie jak stała wariancja terminów błędów i normalność reszt?
Czy zazwyczaj usuwasz je również, gdy masz punkty o odległości Cooka większej niż 4 / n? Jeśli je usuniesz, jak możesz stwierdzić, czy model z usuniętymi punktami jest lepszy?

— pan12
źródło

12

Nie wiem, czy mogę udzielić ci pełnej odpowiedzi, ale mogę dać ci kilka przemyśleń, które mogą być pomocne. Po pierwsze, wszystkie modele / testy statystyczne mają założenia. Jednak regresja logistyczna bardzo nie zakłada, że reszty są normalnie rozłożone, ani że wariancja jest stała. Zakłada się raczej, że dane są dystrybuowane jako dwumian, , to znaczy z liczbą prób Bernoulliego równą liczbie obserwacji w tym dokładnym zestawie wartości zmiennych towarzyszących oraz z prawdopodobieństwem związanym z tym zestawem wartości zmiennych towarzyszących. Pamiętaj, że wariancja dwumianu wynosi . Zatem jeśli $\mathcal{B}(n_{x_i},p_{x_i})$ $np(1-p)$ $n$ różnią się na różnych poziomach współzmiennej, wariancje również będą. Ponadto, jeśli którakolwiek z zmiennych towarzyszących jest w ogóle związana ze zmienną odpowiedzi, wówczas prawdopodobieństwa będą się różnić, a zatem i wariancje. Są to ważne fakty dotyczące regresji logistycznej.

Po drugie, porównania modeli są zwykle przeprowadzane między modelami o różnych specyfikacjach (na przykład z różnymi zestawami zmiennych towarzyszących), a nie dla różnych podzbiorów danych. Szczerze mówiąc, nie jestem pewien, jak należałoby to zrobić. Z modelu liniowego, można spojrzeć na 2 s, aby zobaczyć, jak wiele lepsze dopasowanie jest z danymi nieprawidłowych wykluczonych, ale to tylko charakter opisowy, a trzeba wiedzieć, że będzie miał iść w górę. W przypadku regresji logistycznej nie można jednak zastosować standardowej wartości . Istnieją różne „pseudo- $R^2$ $R^2$ $R^2$ $R^2$ s ”, które zostały opracowane w celu zapewnienia podobnych informacji, ale często uważa się je za wadliwe i nie są często używane. Przegląd różnych istniejących pseudo- s znajduje się tutaj . Aby zapoznać się z ich dyskusją i krytyką, zobacz tutaj . Inną możliwością może być podważenie beta z uwzględnionymi wartościami odstającymi i bez nich, aby zobaczyć, jak ich wykluczenie przyczynia się do ustabilizowania ich rozkładu próbkowania. Ponownie byłby to tylko opisowy (tj. Nie stanowiłby testu, który powiedziałby ci, który model - er, podzbiór twoich danych - wolisz) i wariancja musiałaby spaść. Te rzeczy są prawdziwe, zarówno dla pseudo- $R^2$ $R^2$ si dystrybucjami typu jackknifed, ponieważ wybrałeś te dane do wykluczenia na podstawie faktu, że wydają się ekstremalne.

— gung - Przywróć Monikę
źródło

8

1) Czy istnieją jakieś szczególne założenia dotyczące błędów regresji logistycznej, takie jak stała wariancja terminów błędów i normalność reszt?

Modele regresji logistycznej nie mają „błędów” w tradycyjnym znaczeniu. Jest to zarówno sprzeczne z intuicją, jak i niespójne metodologicznie. Wyjściami modelu są dopasowane prawdopodobieństwa lub ryzyka, podczas gdy zaobserwowane wyniki są wskaźnikami zdarzeń 0/1. Metodologicznie tendencja do niedoceniania domen o bardzo wysokich lub bardzo niskich prawdopodobieństwach dopasowania (przyczyniających się bardzo niewielkich ilościach do odległości resztkowej), podczas gdy algorytm dopasowania modelu przywiązuje znacznie większą wagę do takich regionów. Odległość w kwadracie jest ogólnie złym sposobem kalibracji modelu regresji logistycznej.

Alternatywnym testem dobroci dopasowania jest test Hosmera-Lemeshowa, w którym dopasowane wartości są wykorzystywane do tworzenia podzielonych partycji na podstawie decyli dopasowanego ryzyka. Możesz przeczytać o tym teście w kategorycznej analizie danych Alana Agrestiego lub w książce Regresja logistyczna Hosmera i Lemeshowa. Innym procesem jest użycie resztek studenckich, w których średni stosunek wariancji służy do ponownego ważenia reszt przez ich dopasowaną odwrotną wariancję. W przypadku regresji logistycznej jest to

r_{s t u re} = \frac{Y - μ}{\sqrt{μ (1 - μ)}}

$r_{stud} = \frac{Y - \mu}{\sqrt{\mu(1-\mu)}}$

2) Czy zazwyczaj, gdy masz punkty o odległości Cooka większej niż 4 / n, usuwasz je? Jeśli je usuniesz, jak możesz stwierdzić, czy model z usuniętymi punktami jest lepszy?

Nigdy nie usuwam punktów na podstawie analiz wrażliwości. Jeśli wykonam losową próbę 100 osób i ich dochodów, a 1 osoba jest miliarderem, to moim najbezpieczniejszym założeniem jest to, że 1 miliarder reprezentuje 1/100 populacji.

— AdamO
źródło

Dlaczego miałbyś zakładać, że 1 miliarder reprezentuje 1/100 populacji? Prawdopodobnie byłbyś w stanie uzyskać zewnętrzny szacunek odsetka miliarderów w populacji!

— kjetil b halvorsen

6

Zgadzam się ogólnie z powyższym komentarzem AdamO - zakładając, że 1 miliarder reprezentuje 1/100 populacji, jest całkowicie w porządku. Jeśli jednak obecność 1 miliardera wypaczy dane tak bardzo, że wpłynie to na prognozy dla pozostałych 99 osób, usunę 1 miliardera. Wolę się mylić, przewidując wartość odstającą niż wszyscy inni.

Powiedziawszy to, jeśli usuniesz punkty danych za pomocą wartości D Cooka (tj. Cokolwiek> 4 / df), możesz użyć obszaru pod krzywymi ROC dla obu modeli, aby sprawdzić poprawę.

— Sanjay Saravanan
źródło

1

(+1) Modelowanie zależności między logarytmicznym prawdopodobieństwem reakcji a dochodami przy użyciu naturalnego splajnu, być może wcześniej przekształcając dochód, jest kolejnym sposobem na uniknięcie nadmiernego wpływu prognoz miliardera na innych. Usunięcie go sugeruje, że jesteś szczęśliwy, że nie robisz prognoz dla innych miliarderów (wystarczająco uczciwie), niż szczęśliwy, że robisz błędne prognozy na ich temat.

— Scortchi - Przywróć Monikę

Jak na ironię, jeśli chodzi o przewidywanie zdarzeń binarnych, prawdą jest, że wykluczenie wpływowych obserwacji może prowadzić do lepszej kalibracji prognoz ryzyka. Jednak wykluczenie wpływowych obserwacji zmniejszy dyskryminację prognoz ryzyka. To ostatnie jest prawdopodobnie ważniejsze. Jeśli chodzi o przewidywanie ryzyka określonego zdarzenia (które jest 0 lub 1, nie jest ciągle wyceniane), najlepszy rodzaj prognozy popchnie przewidywania przypadków bliższe 1 i kontroluje przewidywania bliższe 0. Wysoko wpływowe punkty są często skuteczne przy robieniu tego.

— AdamO