Typowe testy statystyczne jako modele liniowe

(AKTUALIZACJA: Zagłębiłem się w to i opublikowałem wyniki tutaj )

Lista nazwanych testów statystycznych jest ogromna. Wiele powszechnych testów opiera się na wnioskowaniu z prostych modeli liniowych, np. Test t dla jednej próbki to po prostu y = β + ε, który jest testowany względem modelu zerowego y = μ + ε, tzn. Że β = μ, gdzie μ jest trochę zerowe wartość - zazwyczaj μ = 0.

Uważam, że jest to o wiele bardziej pouczające do celów dydaktycznych niż nauka na pamięć nazwanych modeli, kiedy ich używać i ich założeń, jak gdyby nie mieli ze sobą nic wspólnego. Takie podejście promuje nie promuje zrozumienia. Nie mogę jednak znaleźć dobrego zasobu, który to zbierze. Bardziej interesują mnie równoważności między podstawowymi modelami niż metoda wnioskowania na ich podstawie. Chociaż, o ile widzę, testy współczynnika prawdopodobieństwa na wszystkich tych liniowych modelach dają takie same wyniki jak wnioskowanie „klasyczne”.

Oto równoważności, których się nauczyłem do tej pory, ignorując termin błędu $\varepsilon \sim \mathcal N(0, \sigma^2)$ i zakładając, że wszystkie hipotezy zerowe są nieobecnością efektu:

Test t dla jednej próbki: $y = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0$ .

Test t dla próbki sparowanej: $y_2-y_1 = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0$

Jest to identyczne z testem t dla jednej próby na różnicach par.

Test t dla dwóch próbek: $y = \beta_1 * x_i + \beta_0 \qquad \mathcal{H}_0: \beta_1 = 0$

gdzie x jest wskaźnikiem (0 lub 1).

Korelacja Pearsona: $y = \beta_1 * x + \beta_0 \qquad \mathcal{H}_0: \beta_1 = 0$

Zwróć uwagę na podobieństwo do dwupróbkowego testu t, który jest po prostu regresją na binarnej osi x.

Korelacja Spearmana: $rank(y) = \beta_1 * rank(x) + \beta_0 \qquad \mathcal{H}_0: \beta_1 = 0$

Jest to identyczne z korelacją Pearsona dla xiy przekształconych rangą.

ANOVA jednokierunkowa: $y = \beta_1*x_1 + \beta_2*x_2 + \beta_3*x_3 +... \qquad \mathcal{H}_0: \beta_1, \beta_2, \beta_3, ... = \beta$

gdzie $x_i$ są wskaźnikami wybierającymi odpowiedni $\beta$ (jeden $x$ to 1; pozostałe to 0). Model może prawdopodobnie być sporządzone w postaci macierzowej jako a $Y = \beta * X$ .

Dwukierunkowa ANOVA: $y = \beta_1 * X_1 + \beta_2 * X_2 + \beta_3 * X_1 * X_2 \qquad \mathcal{H}_0: \beta_3 = 0$

dla dwóch dwupoziomowych czynników. Powyżej $\beta_i$ są wektorami beta gdzie wybrany jest wskaźnikiem wektora $X_i$ . $\mathcal{H}_0$ pokazany jest tu efekt interakcji.

Czy możemy dodać więcej „nazwanych testów” do tej listy modeli liniowych? Np. Regresja wielowymiarowa, inne testy „nieparametryczne”, testy dwumianowe lub RM-ANOVA?

AKTUALIZACJA: zadano pytania i odpowiedzi dotyczące ANOVA i testów t jako modeli liniowych tutaj na SO. Zobacz to pytanie i oznaczone pytania powiązane .

— Jonas Lindeløv
źródło

Myślę, że te porównania są odpowiednie, ale w pewnym momencie istnieją również subtelne różnice. Np. Weźmy jednokierunkową ANOVA: gdzie regresja liniowa zapewni ci współczynniki, aw większości pakietów oprogramowania istotność na współczynnik przy testach Walda (co może nie być odpowiednie), ANOVA zapewni pojedynczą wartość p wskazującą, czy jakikolwiek jeden ze współczynników różni się znacznie od zera. Test ilorazu wiarygodności między modelem zerowym a modelem regresji będącym przedmiotem zainteresowania może być bardziej porównywalny. W związku z tym nie wyrównałbym całkowicie tych testów / modeli.

— IWS

Słuszna uwaga; Zaktualizowałem pytanie, mówiąc: „Bardziej interesują mnie równoważności między podstawowymi modelami niż metoda wnioskowania na ich podstawie”. Testy ilorazu wiarygodności na jednostronnych ANOVA i terminach interakcji dają identyczne wartości p, jak w przypadku „klasycznych” analiz, o ile chodzi o moje testy.

— Jonas Lindeløv,

W porządku, ale wnioskujmy na bok, zauważmy, że modele regresji zapewniają również dodatkową elastyczność podczas obsługi nieliniowości (chociaż transformacje mogą być również testowane za pomocą tych „nazwanych testów”, splajny to inna sprawa) lub obsługi heteroscedastyczności, nawet nie wspominając o rodzinie uogólnionych modeli, które również obsługują nieciągłe zmienne zależne. Niemniej jednak widzę, że wyjaśnienie nazwanych testów jako ograniczających odmian modeli regresji do celów dydaktycznych może mieć sens, więc +1

— IWS

Czy korelacja rang Spearmana jest rzeczywiście modelem liniowym?

— Martin Dietz

@MartinDietz: Tak, po przekształceniu rang xiy jest liniowy. Kod R:x = rnorm(100); y = rnorm(100); summary(lm(rank(x) ~ rank(y))); cor.test(x, y, method='spearman')

— Jonas Lindeløv

Nie jest to wyczerpująca lista, ale jeśli uwzględnisz uogólnione modele liniowe, zakres tego problemu staje się znacznie większy.

Na przykład:

E [logit (p) | t] = β_{0} + β_{1} t H_{0} : β_{1} = 0

$E[\mbox{logit} (p) | t] = \beta_0 + \beta_1 t \qquad \mathcal{H}_0: \beta_1 = 0$

The $p \times k$ jest model log-liniowy dla częstotliwości komórkowych podanych przez:

E [\log (μ)] = β_{0} + β_{i .} + β_{. j} + γ_{i j} i, j > 1 H_{0} : γ_{i j} = 0, i, j > 1

$E[\log (\mu)] = \beta_0 + \beta_{i.} + \beta_{.j} + \gamma_{ij} \quad i,j > 1 \qquad\mathcal{H}_0: \gamma_{ij} = 0, \quad i,j > 1$

Również test t dla nierównych wariancji jest dobrze aproksymowany przy użyciu solidnego oszacowania błędu Huber White.

— AdamO
źródło