Jak przeprowadzić analizę resztkową dla binarnych / dychotomicznych niezależnych predyktorów w regresji liniowej?

Przeprowadzam wielokrotną regresję liniową poniżej w R, aby przewidzieć zwrot z zarządzanego funduszu.

reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata)

Tutaj tylko GRI i MBA są predyktorami binarnymi / dychotomicznymi; pozostałe predyktory są ciągłe.

Używam tego kodu do generowania wykresów resztkowych dla zmiennych binarnych.

plot(rawdata$GRI, reg$residuals)
abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) 

plot(rawdata$MBA, reg$residuals)
abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x)

Moje pytanie: Wiem, jak sprawdzać wykresy resztkowe pod kątem ciągłych predyktorów, ale w jaki sposób testujesz założenia regresji liniowej, takie jak homoscedastyczność, gdy zmienna niezależna jest binarna?

Pozostałe działki:

Wykres resztkowy dla GR1 Wykres rezydualny dla MBA

— GeorgeOfTheRF
źródło

Odpowiedzi:

@NickCox wykonał dobrą robotę, mówiąc o wyświetlaniu pozostałości, gdy masz dwie grupy. Pozwól mi odnieść się do niektórych wyraźnych pytań i domyślnych założeń leżących u podstaw tego wątku.

Pytanie brzmi: „w jaki sposób testujesz założenia regresji liniowej, takie jak homoscedastyczność, gdy zmienna niezależna jest binarna?” Masz model regresji wielokrotnej . Model (wielokrotnej) regresji zakłada, że istnieje tylko jeden warunek błędu, który jest stały wszędzie. Sprawdzanie heteroscedastyczności dla każdego predyktora z osobna nie jest strasznie znaczące (i nie musisz). Właśnie dlatego, gdy mamy model regresji wielokrotnej, diagnozujemy heteroscedastyczność na podstawie wykresów reszt w stosunku do przewidywanych wartości. Prawdopodobnie najbardziej pomocnym wykresem do tego celu jest wykres położenia w skali (zwany również „poziomem rozpiętości”), który jest wykresem pierwiastka kwadratowego z bezwzględnej wartości reszt w porównaniu z przewidywanymi wartościami. Aby zobaczyć przykłady,Co oznacza „stała wariancja” w modelu regresji liniowej?

Podobnie, nie trzeba sprawdzać reszt dla każdego predyktora pod kątem normalności. (Szczerze mówiąc, nawet nie wiem, jak by to działało.)

To, co możesz zrobić z wykresami reszt względem poszczególnych predyktorów, to sprawdzić, czy forma funkcjonalna jest odpowiednio określona. Na przykład, jeśli reszty tworzą parabolę, w danych brakuje pewnej krzywizny. Aby zobaczyć przykład, spójrz na drugi wykres w odpowiedzi @ Glen_b tutaj: Sprawdzanie jakości modelu w regresji liniowej . Te problemy nie dotyczą jednak predyktora binarnego.

O ile warto, jeśli masz tylko predyktory jakościowe, możesz przetestować heteroscedastyczność. Po prostu używasz testu Levene'a. Omawiam to tutaj: dlaczego test Levene'a na równość wariancji zamiast stosunku F? W R używasz ? LeveneTest z pakietu samochodowego.

Edycja: Aby lepiej zilustrować punkt, w którym oglądanie wykresu reszt w porównaniu z pojedynczą zmienną predykcyjną nie pomaga, gdy masz model regresji wielokrotnej, rozważ ten przykład:

set.seed(8603)                       # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50))  # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12)        # here is the (dichotomous) x2 variable
y  = 5 + 1*x1 + 2*x2 + rnorm(48)     # the true data generating process, there is 
                                     #   no heteroscedasticity

mod = lm(y~x1+x2)                    # this fits the model

Z procesu generowania danych widać, że nie ma heteroscedastyczności. Przeanalizujmy odpowiednie wykresy modelu, aby sprawdzić, czy sugerują problematyczną heteroscedastyczność:

wprowadź opis zdjęcia tutaj

Nie, nie ma się czym martwić. Przyjrzyjmy się jednak wykresowi reszt w stosunku do pojedynczej zmiennej predykcyjnej binarnej, aby zobaczyć, czy wygląda na to, że istnieje tam heteroscedastyczność:

wprowadź opis zdjęcia tutaj

Och, wygląda na to, że może być problem. Wiemy z procesu generowania danych, że nie ma heteroscedastyczności, a podstawowe wykresy do zbadania tego również nie wykazały, więc co się tutaj dzieje? Może te działki pomogą:

wprowadź opis zdjęcia tutaj

x1i x2nie są od siebie niezależni. Co więcej, obserwacje x2 = 1są skrajne. Mają większą dźwignię, więc ich pozostałości są naturalnie mniejsze. Niemniej jednak nie ma heteroscedastyczności.

Komunikat „zabierz do domu”: najlepszym rozwiązaniem jest zdiagnozowanie heteroscedastyczności tylko na podstawie odpowiednich wykresów (reszty vs. wykres dopasowany i wykres rozłożony).

— gung - Przywróć Monikę
źródło

Dzięki! Dla tej samej regresji, którą robiłem, stwierdziłem, że Residual Vs Y jest homoscedastyczny, ale kiedy sprawdziłem kadencję Residual Vs (niezależną), był to kształt lejka. Więc muszę dokonać transformacji, aby poprawić to prawo? Więc w tym kontekście chciałeś tylko zrozumieć, dlaczego wspomniałeś, że sprawdzanie resztkowej zmiennej niezależnej Vs nie jest konieczne?

— GeorgeOfTheRF

@ mrcet007, nie, nie potrzebujesz transformacji. Jeśli res vs dopasowanie nie wykazuje heteroscedastyczności, wszystko jest w porządku. Być może ilustracja ci pomoże. Zredagowałem swoją odpowiedź, aby dodać demonstrację.

— gung - Przywróć Monikę

Czy możesz sprawdzić ten link people.duke.edu/~rnau/testing.htm . Mówi również o sprawdzeniu resztkowej zmiennej niezależnej Vs. Po prostu udostępnianie do dyskusji. Czy możesz to skomentować? Myślałem, że zawsze musimy sprawdzić zarówno przewidywane wartości rezydualne V, jak i resztkowe vs niezależne. homoscedastyczność (stała wariancja) błędów (a) w funkcji czasu (w przypadku danych szeregów czasowych) (b) w porównaniu z przewidywaniami (c) w stosunku do dowolnej zmiennej niezależnej

— GeorgeOfTheRF

Mój komentarz jest taki, że przedstawiłem ci powód, dla którego patrzysz na wykresy rezydualne vs prognozowane w celu sprawdzenia heteroscedastyczności i pokazałem przykład, w jaki sposób patrzenie na wykresy rezydualne vs IV może doprowadzić cię na manowce. Nie wiem, co jeszcze można powiedzieć.

— gung - Przywróć Monikę

Prawdą jest, że konwencjonalne wykresy resztkowe są w tym przypadku trudniejsze: może być (znacznie) trudniej zobaczyć, czy rozkłady są mniej więcej takie same. Ale są tutaj łatwe alternatywy. Po prostu porównujesz dwie dystrybucje i jest na to wiele dobrych sposobów. Niektóre możliwości to równoległe lub nałożone na siebie wykresy kwantyli, histogramy lub wykresy pudełkowe. Moje własne uprzedzenie jest takie, że wykresy pudełkowe bez ozdób są często nadużywane tutaj: zwykle ukrywają szczegóły, na które powinniśmy patrzeć, nawet jeśli często możemy je odrzucić jako nieistotne. Ale możesz zjeść swoje ciasto i je mieć.

Używasz R, ale żadne dane statystyczne w twoim pytaniu nie są specyficzne dla R. Tutaj użyłem Staty do regresji na pojedynczym predyktorze binarnym, a następnie wystrzeliłem kwantowe wykresy pudełkowe, porównując resztki dla dwóch poziomów predyktora. Praktyczny wniosek w tym przykładzie jest taki, że rozkłady są prawie takie same.

wprowadź opis zdjęcia tutaj

$1/4$ $3/4$

Uwaga: Zobacz także Jak zaprezentować wykres pudełkowy z ekstremalną wartością odstającą? w tym przykład podobnych wykresów @ Glen_b przy użyciu R. Takie wykresy powinny być łatwe w każdym przyzwoitym oprogramowaniu; jeśli nie, twoje oprogramowanie nie jest przyzwoite.

— Nick Cox
źródło

+1 piękna. Czy uważasz, że tutaj również jest rola testowania hipotez na pozostałościach?

— Alexis,

@gung Edytowałem Twoją edycję. Oryginał najwyraźniej nie był wystarczająco jasny, jeśli go źle zrozumiałeś.

— Nick Cox,

@Alexis Thanks! Cieszy mnie pomysł, że hipoteza równego rozproszenia jest nieformalnie poparta przez wykres w tym przypadku. Nie należę do szkoły myślenia, że każdy mały krok w analizie musi być uświęcony wartością P. Niestety, nigdy nie jest łatwo mieć pewność, że skoczysz właściwą drogą, ale w praktyce bym też zabawił inne modele, jeśli miałem wątpliwości. Tutaj przywołano tylko przykład pytania, a nie część poważnej analizy.

— Nick Cox,

Przepraszam, Nick. Źle zrozumiałem sens tego zdania. Myślałem, że to literówka. Teraz jest wyraźniej.

— gung - Przywróć Monikę

@ whuber W porządku dla mnie. Niektórzy uważają je za mylące, a przynajmniej tak mi powiedziano.

— Nick Cox,