Jest to miejsce, w którym odkryłem, że pomocne są niektóre formuły, nawet dla osób z pewnym lękiem matematycznym (niekoniecznie sugeruję, że to robisz). Prosty model regresji liniowej jest następujący:
Należy tutaj zauważyć, że ten model jest jawnie stwierdza, że po oszacowaniu znaczących informacji w danych (czyli „ ”) nie pozostało już nic oprócz białego szumu. Ponadto błędy są dystrybuowane jako Normalne z wariantem .
Y=β0+β1X+εwhere ε∼N(0,σ2ε)
β0+β1Xσ2ε
Ważne jest, aby zdać sobie sprawę, że nie jest zmienną (chociaż w algebrze na poziomie gimnazjum nazwalibyśmy to). To się nie zmienia. zmienia się. zmienia się. Termin błędu, , zmienia się losowo ; to jest zmienna losowa . Jednak parametry ( są zastępczymi dla wartości, których nie znamy - nie różnią się. Zamiast tego są to nieznane stałe . Rezultatem tego faktu w tej dyskusji jest to, że bez względu na to, co to jest (tj. Jaka jest tam wartość),σ2εXYεβ0, β1, σ2ε)Xσ2εpozostaje takie samo. Innymi słowy, wariancja błędów / reszt jest stała. Dla kontrastu (i być może większej przejrzystości) rozważ ten model:
W tym przypadku wartość dla (zaczynając od trzeciego wiersza) , przekazać je poprzez funkcję i uzyskać wariancję błędu, który uzyskuje w tym dokładnej wartości . Następnie jak zwykle przechodzimy przez resztę równania.
Y=β0+β1X+εwhere ε∼N(0,f(X)) where f(X)=exp(γ0+γ1X)and γ1≠0
Xf(X) X
Powyższa dyskusja powinna pomóc w zrozumieniu natury założenia; pytanie dotyczy także tego, jak to ocenić . Istnieją zasadniczo dwa podejścia: formalne testy hipotez i badanie wykresów. Testów heteroscedastyczności można użyć, jeśli masz dane eksperymentalne (tj. Które występują tylko przy ustalonych wartościach ) lub ANOVA. Omawiam tutaj kilka takich testów: Dlaczego test Levene'a równości wariancji zamiast współczynnika F.X. Jednak wydaje mi się, że najlepiej jest patrzeć na działki. @Penquin_Knight wykonał dobrą robotę, pokazując, jak wygląda stała wariancja, wykreślając resztki modelu, w którym uzyskuje się homoscedastyczność względem dopasowanych wartości. Heteroscedastyczność można również wykryć na wykresie nieprzetworzonych danych lub na wykresie lokalizacji skalowanej (zwanym także poziomem rozproszenia). R wygodnie drukuje te ostatnie za pomocą połączenia z plot.lm(model, which=2)
; jest to pierwiastek kwadratowy z bezwzględnych wartości reszt w stosunku do dopasowanych wartości, z krzywą nisko ułożoną, pomocnie nałożoną. Chcesz, aby dopasowanie lowess było płaskie, a nie nachylone.
Rozważ poniższe wykresy, które porównują, jak dane homoscedastyczne i heteroscedastyczne mogą wyglądać na tych trzech różnych typach liczb. Zwróć uwagę na kształt lejka dla dwóch górnych wykresów heteroscedastycznych i opadającą w górę linię lowess w ostatnim.
Dla kompletności, oto kod, którego użyłem do wygenerowania tych danych:
set.seed(5)
N = 500
b0 = 3
b1 = 0.4
s2 = 5
g1 = 1.5
g2 = 0.015
x = runif(N, min=0, max=100)
y_homo = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2 ))
y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x)))
mod.homo = lm(y_homo~x)
mod.hetero = lm(y_hetero~x)