Miary heteroscedastyczności reszt

Ten link do Wikipedii zawiera szereg technik wykrywania heteroscedastyczności resztek OLS. Chciałbym dowiedzieć się, która praktyczna technika jest bardziej skuteczna w wykrywaniu regionów dotkniętych heteroscedastycznością.

Na przykład tutaj centralny obszar wykresu OLS „Resztki vs Dopasowane” ma większą wariancję niż boki wykresu (w rzeczywistości nie jestem do końca pewien, ale załóżmy, że tak jest w przypadku pytania). Aby to potwierdzić, patrząc na etykiety błędów na wykresie QQ, możemy zobaczyć, że pasują one do etykiet błędów na środku wykresu Resztki.

Ale jak możemy kwantyfikować region resztkowy, który ma znacznie wyższą wariancję?

heteroscedastyczność

regression least-squares heteroscedasticity

— Robert Kubrick
źródło

Nie jestem pewien, czy masz rację, że w środku jest większa wariancja. Moim zdaniem fakt, że wartości odstające znajdują się w regionie centralnym, prawdopodobnie wynika z faktu, że tam właśnie znajduje się większość danych. Oczywiście nie unieważnia to twojego pytania.

— Peter Ellis,

Wykres qq ma na celu bezpośrednią identyfikację nietypowości rozkładu, a nie niejednorodnych wariancji.

— Michael R. Chernick

@PeterEllis Tak, podałem w pytaniu, że nie jestem pewien, czy wariancja jest inna, ale miałem pod ręką ten obraz diagnostyczny i w tym przykładzie może występować pewna heteroscedastyczność.

— Robert Kubrick

@MichaelChernick Wspomniałem tylko o qqplot, aby zilustrować, w jaki sposób najwyższe błędy wydają się koncentrować w środku wykresu reszt, stąd potencjalnie wskazując na większą wariancję w tym obszarze.

— Robert Kubrick

Odpowiedzi:

Ten problem ma charakter eksploracyjny. John Tukey opisuje wiele procedur badania heteroscedastyczności w swojej klasycznej analizie danych eksploracyjnych (Addison-Wesley 1977). Być może najbardziej bezpośrednio użyteczny jest wariant jego „ wędrownego schematu ”. To kroi jedną zmienną (taką jak przewidywana wartość) na przedziały i używa m-literowych podsumowań (uogólnienia wykresów pudełkowych), aby pokazać położenie, rozkład i kształt drugiej zmiennej dla każdego przedziału. Statystyka litery M jest dodatkowo wygładzana, aby podkreślić ogólne wzorce, a nie przypadkowe odchylenia.

Szybką wersję można przygotować, wykorzystując boxplotprocedurę w R. Ilustrujemy symulowanymi silnie heteroscedastycznymi danymi:

set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e

Dane

Uzyskajmy przewidywane wartości i reszty z regresji OLS:

fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)

Oto więc schemat wędrówki wykorzystujący pojemniki o równej liczbie dla przewidywanych wartości. Używam lowessdo szybkiego i brudnego wygładzania.

n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
             xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25), 
        col=colors[i], lwd=2))

Wędrujący schemat

Niebieska krzywa wygładza mediany. Jego pozioma tendencja wskazuje, że regresja jest ogólnie dobrze dopasowana. Pozostałe krzywe wygładzają końce skrzynek (kwartyle) i ogrodzenia (które są zwykle skrajnymi wartościami). Ich silna zbieżność i późniejszy rozdział świadczą o heteroscedastyczności - i pomagają nam ją scharakteryzować i określić ilościowo.

(Zwróć uwagę na nieliniową skalę na osi poziomej, odzwierciedlającą rozkład przewidywanych wartości. Przy odrobinie wysiłku oś ta może zostać zlinearyzowana, co czasem jest przydatne.)

— Whuber
źródło

Ładny przykład, pomyślałem, że jakaś implementacja działających kwantyli była dostępna w R (aby uniknąć problemu z binami razem). Coś w rodzaju przypomina mi wątki . Zobacz także rozszerzenie Roba Hyndmana w jego pakiecie Rainbow.

— Andy W

Zazwyczaj heteroskedastyczność jest modelowana przy użyciu podejścia Breuscha-Pagana. Resztki z regresji liniowej są następnie zwiększane do kwadratu i regresowane na zmiennych w oryginalnym modelu liniowym. Ta ostatnia regresja nazywana jest regresją pomocniczą .

$nR^2_a$ $n$ $R^2_a$ $R^2$

Dla swoich celów możesz skupić się na poszczególnych współczynnikach z tego modelu, aby zobaczyć, które zmienne są najbardziej predykcyjne dla wyników wysokiej lub niskiej wariancji.

— Charlie
źródło

+1 Ale zauważ, że takie testy są ograniczone w postaci heteroscedastyczności, którą mogą wykryć. Przykłady takie jak ten pokazany w mojej odpowiedzi mogą się prześlizgnąć, mimo że heteroscedastyczność jest wyjątkowo silna.

— whuber