Czy w ogóle uzasadnione jest rozwarstwienie zbioru danych według wielkości pozostałości i wykonanie porównania dwóch prób?

Uważam, że jest to metoda ad hoc i wydaje mi się bardzo podejrzana, ale być może czegoś mi brakuje. Widziałem to w regresji wielokrotnej, ale bądźmy prostymi:

y_{i} = β_{0} + β_{1} x_{i} + ε_{i}

$y_{i} = \beta_{0} + \beta_{1} x_{i} + \varepsilon_{i}$

Teraz weź pozostałości z dopasowanego modelu

e_{i} = y_{i} - ({\hat{β}}_{0} + {\hat{β}}_{1} x_{i})

$e_{i} = y_{i} - \left( \hat{\beta}_{0} + \hat{\beta}_{1} x_{i} \right)$

i rozwarstwić próbkę na podstawie wielkości reszt. Załóżmy na przykład, że pierwsza próbka to dolne 90% reszt, a druga próbka to górne 10%, a następnie przejdź do dwóch porównań próbek - widziałem, że zrobiono to zarówno na predyktorze w modelu , jak i na zmienne nie w modelu. Zastosowano nieformalną logikę, że być może punkty, które mają wartości znacznie przekraczające to, czego można oczekiwać w modelu (tj. Duża reszta), różnią się w pewien sposób, a różnicę tę bada się w ten sposób. $x$

Moje przemyślenia na ten temat to:

Jeśli widzisz różnicę 2-próbkową na predyktorze w modelu, oznacza to, że predyktor nie jest uwzględniany przez model w jego obecnym stanie (tj. Efekty nieliniowe).
Jeśli widzisz 2-próbną różnicę na zmiennej innej niż model, być może powinna być w modelu.

Jedną rzeczą, którą znalazłem empirycznie (poprzez symulacje), jest to, że jeśli porównujesz średnią predyktora w modelu i rozwarstwiasz się w ten sposób, aby uzyskać dwa średnie próbki, i , to są one pozytywnie skorelowane ze sobą. Ma to sens, ponieważ obie próbki zależą i $x$ $\overline{x}_{1}$ $\overline{x}_{2}$ $\overline{y}, \overline{x}, \hat{\sigma}_{x}, \hat{\sigma}_{y}$ $\hat{\rho}_{xy}$ . Ta korelacja wzrasta wraz z przesunięciem granicy odcięcia (tj.% Użyty do podzielenia próbki). Przynajmniej więc, jeśli zamierzasz dokonać porównania dwóch próbek, błąd standardowy w mianowniku statystyki należy skorygować, aby uwzględnić korelację (chociaż nie wyprowadziłem wyraźnego wzoru na kowariancja). $t$

Tak czy inaczej, moje podstawowe pytanie brzmi: czy jest to uzasadnione? Jeśli tak, to w jakich sytuacjach może to być przydatne? Najwyraźniej nie sądzę, że istnieje, ale może być coś, o czym nie myślę we właściwy sposób.

regression residuals

— Makro
źródło

czy dwa porównania próbek używają tych samych IVs? Jeśli tak, nie widzę sensu, ponieważ podział resztkowy już wykorzystuje tę informację. Czy możesz podać przykład, w którym to widziałeś, jest dla mnie nowy?

— Michelle,

Być może jedną z nich jest to, że można go użyć jako diagnostyki, aby sprawdzić, czy masz błędną specyfikację modelu - co o tym sądzisz?

— Makro

Nie widzę sensu w robieniu tego inaczej niż jako narzędzie diagnostyczne do identyfikowania problematycznych punktów lub brakujących efektów nieliniowych, jak sugerują powyższe komentarze. Myślę, że dwa punkty kropki w OP („przemyślenia na ten temat ...”) są dość solidne.

— Peter Ellis,

Technikę tę stosuje Loh i jego współautorzy do określania zmiennych podzielonych w swoich algorytmach drzewa WSPARCIE i, jak sądzę, PRZEWODNIK. Ponieważ zestaw danych zostaje podzielony na partycje w ten sposób, można go traktować jako szukanie wpływu nieliniowego (pośredniczonego przez funkcję krokową) i ustalenie, czy zmienna rzeczywiście została zapomniana. Pamiętam, jak zastanawiałem się, czy to też jest sprytne, może znajdziesz więcej wyjaśnień w ich artykułach (nie pamiętam).

— Momo

Pewnie nie ma problemu. Oto Chaudhuri i in. www3.stat.sinica.edu.tw/statistica/j4n1/j4n18/j4n18.htm www3.stat.sinica.edu.tw/statistica/j5n2/j5n217/j5n217.htm odniesienia do strony WSPARCIE oraz strony Loh i in . wisc.edu/~loh/guide.html

— Momo

Odpowiedzi:

Porównywanie średnich jest zbyt słabe: zamiast tego porównaj rozkłady.

Pojawia się również pytanie, czy bardziej pożądane jest porównanie wielkości reszt (jak podano) czy porównanie samych reszt. Dlatego oceniam oba.

Aby sprecyzować, co należy rozumieć, oto Rkod do porównania danych (podanych w równoległych tablicach i ) poprzez regresję na , dzielenie reszt na trzy grupy przez przecięcie ich poniżej kwantyla i powyżej kwantyla oraz (za pomocą wykresu qq) porównując rozkłady wartości związane z tymi dwiema grupami. $(x,y)$ xy $y$ $x$ $q_0$ $q_1\gt q_0$ $x$

test <- function(y, x, q0, q1, abs0=abs, ...) {
  y.res <- abs0(residuals(lm(y~x)))
  y.groups <- cut(y.res, quantile(y.res, c(0,q0,q1,1)))
  x.groups <- split(x, y.groups)
  xy <- qqplot(x.groups[[1]], x.groups[[3]], plot.it=FALSE)
  lines(xy, xlab="Low residual", ylab="High residual", ...)
}

Piąty argument tej funkcji, abs0domyślnie wykorzystuje rozmiary (wartości bezwzględne) reszt do utworzenia grup. Później możemy zastąpić to funkcją, która korzysta z samych reszt.

$x$ $y$

simulate <- function(n, beta0=0, beta1=1, beta2=0, sd=1, q0=1/3, q1=2/3, abs0=abs,
                     n.trials=99, ...) {
  x <- 1:n - (n+1)/2
  y <- beta0 + beta1 * x + beta2 * x^2 + rnorm(n, sd=sd)
  plot(x,y, ylab="y", cex=0.8, pch=19, ...)
  plot(x, res <- residuals(lm(y ~ x)), cex=0.8, col="Gray", ylab="", main="Residuals")
  res.abs <- abs0(res)
  r0 <- quantile(res.abs, q0); r1 <- quantile(res.abs, q1)
  points(x[res.abs < r0], res[res.abs < r0], col="Blue")
  points(x[res.abs > r1], res[res.abs > r1], col="Red")
  plot(x,x, main="QQ Plot of X",
       xlab="Low residual", ylab="High residual",
       type="n")
  abline(0,1, col="Red", lwd=2)
  temp <- replicate(n.trials, test(beta0 + beta1 * x + beta2 * x^2 + rnorm(n, sd=sd), 
                             x, q0=q0, q1=q1, abs0=abs0, lwd=1.25, lty=3, col="Gray"))
  test(y, x, q0=q0, q1=q1, abs0=abs0, lwd=2, col="Black")
}

$y \sim \beta_0 + \beta_1 x + \beta_2 x^2$ sd $q_0$ $q_1$ abs0n.trialsn $(x,y)$ dane, ich wartości resztkowe oraz wykresy qq wielu prób - aby pomóc nam zrozumieć, w jaki sposób proponowane testy działają dla danego modelu (zgodnie nz beta, si sd). Przykłady tych wykresów znajdują się poniżej.

Użyjmy teraz tych narzędzi, aby zbadać niektóre realistyczne kombinacje nieliniowości i heteroscedastyczności, używając bezwzględnych wartości reszt:

n <- 100
beta0 <- 1
beta1 <- -1/n
sigma <- 1/n

size <- function(x) abs(x)
set.seed(17)
par(mfcol=c(3,4))
simulate(n, beta0, beta1, 0, sigma*sqrt(n), abs0=size, main="Linear Homoscedastic")
simulate(n, beta0, beta1, 0, 0.5*sigma*(n:1), abs0=size, main="Linear Heteroscedastic")
simulate(n, beta0, beta1, 1/n^2, sigma*sqrt(n), abs0=size, main="Quadratic Homoscedastic")
simulate(n, beta0, beta1, 1/n^2, 5*sigma*sqrt(1:n), abs0=size, main="Quadratic Heteroscedastic")

$x$ $x$ $x$

Wartości bezwzględne

$x$ $x$ $x$

Zróbmy to samo, używając dokładnie tych samych danych , ale analizując same pozostałości. Aby to zrobić, poprzedni blok kodu został ponownie uruchomiony po wprowadzeniu tej modyfikacji:

size <- function(x) x

Pozostałości

$x$

Być może połączenie obu tych technik zadziałałoby. Te symulacje (i ich odmiany, które zainteresowany czytelnik może wykonywać w czasie wolnym) pokazują, że techniki te nie są bez znaczenia.

$x$ $(x, \hat{y}-x)$ możemy spodziewać się, że proponowane testy będą mniej wydajne niż testy oparte na regresji, takie jak Breusch-Pagan .

— Whuber
źródło

Zgadzam się z obydwoma punktami. Jeśli model jest nieodpowiedni, reszty mogą nie być w przybliżeniu niezależne i identycznie rozmieszczone. Ważne zmienne mogły zostać pominięte lub forma funkcjonalna zmiennych regresora może być niepoprawna. W takim przypadku użyłbym standardowej diagnostyki regresji do zidentyfikowania problemu, a nie tego. Możesz również mieć odpowiednie zmienne w modelu o odpowiedniej formie funkcjonalnej, ale nadal mieć niestałą wariancję. Może to być widoczne po prostu poprzez wykreślenie $e_{i}$ przeciwko $x_i$ . Widzę sens, aby powiedzieć, że chcę znaleźć wartości odstające w modelu poprzez pewną formę wartości resztkowej, ale wtedy zaleciłbym podejście funkcji wpływu do ich wykrycia. Nie widzę, co robi ta procedura.

Inni skomentowali, że może to być tylko narzędzie eksploracyjne, aby sprawdzić, czy dwa zestawy danych powinny być modelowane osobno. Jeśli tak jest, to i ewentualnie inne podejścia badawcze mogą być w porządku. Ale pytanie brzmi: co robisz dalej? Jeśli masz zamiar zrobić dwie osobne regresje i wyciągnąć wnioski na temat próbek, myślę, że musisz w jakiś sposób wziąć pod uwagę sposób podziału próby.

— Michael R. Chernick
źródło

Wydaje mi się, że może to mieć kilka motywacji, np. Zakładając, że reszty są spójne, a następnie wspomniana metoda może pomóc w zidentyfikowaniu obserwacji odległych, a zatem drugi krok zapewnia „skorygowane” estymatory. Istnieją jednak bardziej rygorystyczne techniki, które wykonują wykrywanie zewnętrznych lub dostarczają estymatory, które są odporne na obecność takich obserwacji, takich jak regresje kwantowe, LMS (najmniejsza mediana kwadratów) lub estymatory M itp., W których wszystkie te metody mają dobrze zdefiniowane i znane właściwości statystyczne. (To zostało dodane przez @Michael Chernik)

Inną motywacją może być identyfikacja klastra, ale jest to prymitywne w porównaniu z dostępnymi technikami wykrywania skupień, które są dobrze zdefiniowane i szeroko stosowane.

W obu przypadkach użycie reszt wydaje się nieformalne i prymitywne, ale nadal może być tolerowane jako narzędzie eksploracyjne. To zależy również od domeny czytelników. Zaakceptowałbym to w przypadku niektórych nauk społecznych, w których narzędzia ilościowe mogą być mniej popularne.

— JDav
źródło