Nr Reszty to wartości uzależnione od (minus przewidywaną średnią w każdym punkcie ). Możesz zmienić dowolny sposób ( , , ), a wartości odpowiadające wartościom w danym punkcie nie ulegną zmianie. Zatem warunkowy rozkład (tj. ) będzie taki sam. Oznacza to, że będzie to normalne czy nie, tak jak poprzednio. (Aby lepiej zrozumieć ten temat, pomocne może być przeczytanie mojej odpowiedzi tutaj:X Y X X X + 10 X - 1 / 5 X / π Y X X Y Y | XYXYXXX+ 10X- 1 / 5X/ πYXXYY| XCo jeśli resztki są normalnie rozłożone, ale Y nie jest? )
Co zmienia może zrobić (w zależności od rodzaju transformacji danych używanego) jest zmienić funkcjonalny związek między i . W przypadku nieliniowej zmiany (np. W celu usunięcia przekrzywienia) model, który został wcześniej odpowiednio określony, zostanie źle określony. Nieliniowe transformacje są często stosowane do linearyzacji zależności między i , aby uczynić relację bardziej interpretowalną lub aby odpowiedzieć na inne pytanie teoretyczne. X Y X X X YXXYXXXY
Więcej informacji na temat tego, w jaki sposób transformacje nieliniowe mogą zmienić model oraz pytania, na które model odpowiada (z naciskiem na transformację logów), może pomóc Ci przeczytać te doskonałe wątki CV:
Transformacje liniowe mogą zmieniać wartości parametrów, ale nie wpływają na zależność funkcjonalną. Na przykład, jeśli wyśrodkujesz zarówno jak i przed uruchomieniem regresji, punkt przecięcia stanie się . Podobnie, jeśli podzielisz przez stałą (powiedzmy, żeby zmienić z centymetrów na metry), nachylenie zostanie pomnożone przez tę stałą (np. , czyli wzrośnie 100 razy więcej niż 1 metr niż wzrośnie o 1 cm). Y p 0 0 X β 1 ( m ) = 100 x β 1 ( c m ) YXYβ^00Xβ^1 ( m ) = 100 × β^1 ( c m ) Y
Z drugiej strony, nieliniowe transformacje będzie wpływać na rozkład reszt. W rzeczywistości przekształcenie jest powszechną sugestią dotyczącą normalizacji reszt. To, czy taka transformacja uczyni je bardziej lub mniej normalnymi, zależy od początkowego rozkładu reszt ( nie początkowego rozkładu ) i zastosowanej transformacji. Częstą strategią jest optymalizacja w stosunku do parametru rodziny dystrybucji Box-Cox. Jedna uwaga jest właściwe tutaj: nieliniowe transformacje może model misspecified jak nieliniowych transformacji może. T TY YYY XλYX
Teraz, co będzie, jeśli zarówno i są normalne? W rzeczywistości nie gwarantuje to nawet, że rozkład połączeń będzie dwuwymiarowy normalny (patrz doskonała odpowiedź @ kardynała tutaj: Czy można mieć parę losowych zmiennych Gaussa, dla których rozkład połączeń nie jest Gaussowski ). YXY
Oczywiście, wydają się to dość dziwne możliwości, więc co jeśli rozkłady krańcowe wydają się normalne, a rozkład połączeń wydaje się również dwuwymiarowy normalny, czy to wymaga, aby reszty były również normalnie rozdzielone? Jak starałem się pokazać w mojej odpowiedzi I połączone powyżej, jeżeli reszty mają rozkład normalny, normalnością zależy od rozkładu . Nie jest jednak prawdą, że normalność reszty zależy od normalności marginesów. Rozważ ten prosty przykład (zakodowany ): XYXR
set.seed(9959) # this makes the example exactly reproducible
x = rnorm(100) # x is drawn from a normal population
y = 7 + 0.6*x + runif(100) # the residuals are drawn from a uniform population
mod = lm(y~x)
summary(mod)
# Call:
# lm(formula = y ~ x)
#
# Residuals:
# Min 1Q Median 3Q Max
# -0.4908 -0.2250 -0.0292 0.2539 0.5303
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 7.48327 0.02980 251.1 <2e-16 ***
# x 0.62081 0.02971 20.9 <2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 0.2974 on 98 degrees of freedom
# Multiple R-squared: 0.8167, Adjusted R-squared: 0.8148
# F-statistic: 436.7 on 1 and 98 DF, p-value: < 2.2e-16
Na wykresach widzimy, że oba marginesy wydają się w miarę normalne, a rozkład połączeń wygląda na normalnie dwuwymiarowy. Niemniej jednak jednorodność reszt pokazuje się na ich wykresie qq; oba ogony opadają zbyt szybko w stosunku do normalnego rozkładu (tak naprawdę muszą).