Ten problem ma charakter eksploracyjny. John Tukey opisuje wiele procedur badania heteroscedastyczności w swojej klasycznej analizie danych eksploracyjnych (Addison-Wesley 1977). Być może najbardziej bezpośrednio użyteczny jest wariant jego „ wędrownego schematu ”. To kroi jedną zmienną (taką jak przewidywana wartość) na przedziały i używa m-literowych podsumowań (uogólnienia wykresów pudełkowych), aby pokazać położenie, rozkład i kształt drugiej zmiennej dla każdego przedziału. Statystyka litery M jest dodatkowo wygładzana, aby podkreślić ogólne wzorce, a nie przypadkowe odchylenia.
Szybką wersję można przygotować, wykorzystując boxplot
procedurę w R
. Ilustrujemy symulowanymi silnie heteroscedastycznymi danymi:
set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e
Uzyskajmy przewidywane wartości i reszty z regresji OLS:
fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)
Oto więc schemat wędrówki wykorzystujący pojemniki o równej liczbie dla przewidywanych wartości. Używam lowess
do szybkiego i brudnego wygładzania.
n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25),
col=colors[i], lwd=2))
Niebieska krzywa wygładza mediany. Jego pozioma tendencja wskazuje, że regresja jest ogólnie dobrze dopasowana. Pozostałe krzywe wygładzają końce skrzynek (kwartyle) i ogrodzenia (które są zwykle skrajnymi wartościami). Ich silna zbieżność i późniejszy rozdział świadczą o heteroscedastyczności - i pomagają nam ją scharakteryzować i określić ilościowo.
(Zwróć uwagę na nieliniową skalę na osi poziomej, odzwierciedlającą rozkład przewidywanych wartości. Przy odrobinie wysiłku oś ta może zostać zlinearyzowana, co czasem jest przydatne.)