Jestem trochę zdezorientowany, jakie są założenia regresji liniowej.
Do tej pory sprawdziłem, czy:
- wszystkie zmienne objaśniające korelowały liniowo ze zmienną odpowiedzi. (Tak było)
- między zmiennymi objaśniającymi była jakakolwiek kolinearność. (była niewielka kolinearność).
- odległości Cooka od punktów danych mojego modelu są mniejsze niż 1 (tak jest, wszystkie odległości są mniejsze niż 0,4, więc nie ma punktów wpływu).
- reszty są zwykle rozkładane. (może nie być tak)
Ale potem przeczytałem następujące:
naruszenia normalności często powstają albo dlatego, że (a) rozkłady zmiennych zależnych i / lub niezależnych same w sobie są znacznie nienormalne i / lub (b) naruszone jest założenie liniowości.
Pytanie 1 Brzmi to tak, jakby zmienne niezależne i zależne musiały być normalnie rozdzielone, ale o ile mi wiadomo, tak nie jest. Moja zmienna zależna, jak również jedna z moich zmiennych niezależnych, nie są zwykle rozłożone. Powinny być?
Pytanie 2 Mój normalny wykres QQ reszt wygląda następująco:
To nieznacznie różni się od rozkładu normalnego, a shapiro.test
także odrzuca hipotezę zerową, że reszty pochodzą z rozkładu normalnego:
> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06
Wartości resztkowe względem dopasowanych wyglądają następująco:
Co mogę zrobić, jeśli moje resztki zwykle nie są dystrybuowane? Czy to oznacza, że model liniowy jest całkowicie bezużyteczny?