Założenie ANOVA normalność / rozkład normalny reszt

Strona Wikipedii na temat ANOVA wymienia trzy założenia , a mianowicie:

Niezależność przypadków - jest to założenie modelu upraszczającego analizę statystyczną.
Normalność - rozkłady reszt są normalne.
Równość (lub „jednorodność”) wariancji, zwana homoscedastycznością ...

Punkt zainteresowania jest tutaj drugim założeniem. Kilka źródeł wylicza założenie inaczej. Niektórzy mówią o normalności surowych danych, inni twierdzą, że są to resztki.

Pojawia się kilka pytań:

czy normalność i normalny rozkład reszt to ta sama osoba (na podstawie wpisu w Wikipedii twierdziłbym, że normalność jest własnością i nie dotyczy bezpośrednio reszt (ale może być właściwością reszt (głęboko zagnieżdżony tekst w nawiasach, dziwaczny)))?
jeśli nie, jakie założenie należy przyjąć? Jeden? Obie?
jeśli założenie o normalnie rozłożonych resztach jest słuszne, czy popełniamy poważny błąd, sprawdzając tylko histogram wartości surowych pod kątem normalności?

— Roman Luštrik
źródło

Możesz praktycznie zignorować wszystko inne, co mówi, że jeśli twierdzą, że surowe dane muszą być normalnie dystrybuowane. A kto powiedział, że „my” zresztą sprawdzamy tylko surowe wartości za pomocą histogramów. Czy jesteś w jednej z tych klas Six Sigma?

— DW

@Andy W: Właśnie dodałem link do odpowiedniej sekcji artykułu w Wikipedii na temat ANOVA.

— onestop

@DWin: blog.markanthonylawson.com/?p=296 (przepraszam, zupełnie nie na temat, ale nie mogłem się oprzeć)

— onestop

@onstop dziękuję. Poprosiłem o link tylko dlatego, że jestem leniwy i nie chciałem samodzielnie szukać ANOVA na wikipedii, nie dlatego, że jest to istotne dla pytania.

— Andy W

Powiązane pytanie tutaj: co-jeśli-resztki-są-zwykle-dystrybuowane-ale-y-nie-jest .

— gung - Przywróć Monikę

Odpowiedzi:

Załóżmy, że jest to model efektów stałych . (Rada tak naprawdę nie zmienia się w przypadku modeli z efektami losowymi, tylko trochę się komplikuje.)

Nie, normalność i normalny rozkład resztek nie są takie same . Załóżmy, że zmierzyłeś plon z uprawy z aplikacją nawozu i bez. Na poletkach bez nawozu plon wahał się od 70 do 130. Na dwóch poletkach z nawozem plon wahał się od 470 do 530. Rozkład wyników jest bardzo nietypowy: jest skupiony w dwóch miejscach związanych z aplikacją nawozu. Załóżmy ponadto, że średnie wydajności wynoszą odpowiednio 100 i 500. Wtedy wszystkie wartości resztkowe mieszczą się w zakresie od -30 do +30. Mogą być (lub nie) normalnie dystrybuowane, ale oczywiście jest to zupełnie inna dystrybucja.
Rozkład reszt ma znaczenie , ponieważ odzwierciedlają losową część modelu. Należy również zauważyć, że wartości p są obliczane ze statystyk F (lub t) i zależą one od reszt, a nie od wartości pierwotnych.
Jeśli dane mają znaczący i ważny wpływ (jak w tym przykładzie), możesz popełnić „poważny” błąd . Możesz, na szczęście, dokonać właściwego ustalenia: to znaczy, patrząc na surowe dane, zobaczysz mieszankę dystrybucji, a to może wyglądać normalnie (lub nie). Chodzi o to, że to, czego szukasz, nie ma znaczenia.

Resztki ANOVA nie muszą być zbliżone do normalnych, aby pasowały do modelu. Jednak prawie normalność reszt jest niezbędna, aby wartości p obliczone z rozkładu F były znaczące.

— Whuber
źródło

Myślę, że należy dodać ważne punkty: w ANOVA normalność w każdej grupie (nie ogólna) jest równoważna normalności reszt.

— Aniko

@Aniko Czy mógłbyś wyjaśnić, co rozumiesz przez „odpowiednik” w swoim komentarzu? Prawie tautologicznie jest, że normalność w grupie jest taka sama jak normalność reszt tej grupy, ale to nieprawda, że normalność oddzielnie w każdej grupie implikuje (lub implikuje) normalność reszt.

— whuber

Naprawdę miałem na myśli sens tautologiczny: jeśli grupy są normalne, to reszty są normalne. Odwrotna sytuacja jest prawdziwa tylko wtedy, gdy dodana zostanie homoscedascity (jak w ANOVA). Nie zamierzam opowiadać się za sprawdzaniem grup zamiast reszt, ale myślę, że jest to podstawowa przyczyna różnych sformułowań założeń.

— Aniko

Zauważyłem, że ludzie wykonujący ANOVA zwykle wydają się zainteresowani obliczaniem wartości p, a zatem normalność reszt jest dla nich ważna. Czy istnieją jakieś wspólne powody, aby dopasować model ANOVA, jeśli nie jesteśmy zainteresowani obliczaniem wartości p z rozkładu F.? Przepraszamy, jeśli pytanie jest zbyt szerokie, aby można je było komentować.

— user1205901 - Przywróć Monikę

@ user1205901 To bardzo dobra uwaga. Dwa typowe zastosowania ANOVA, które nie opierają się na teście F, to (1) jest to wygodny sposób na uzyskanie oszacowania efektu i (2) jest nieodłączną częścią składowych obliczania wariancji.

— whuber

Standardowa klasyczna jednokierunkowa ANOVA może być postrzegana jako rozszerzenie klasycznego „testu T z 2 próbkami” do „testu T z n próbkami”. Można to zaobserwować porównując jednokierunkową ANOVA z tylko dwiema grupami z klasycznym 2-próbnym testem T.

Myślę, że mylisz się, że (zgodnie z założeniami modelu) reszty i surowe dane są ZARÓWNO normalnie rozłożone. Jednak surowe dane składają się z normalnych rozkładów na różne sposoby (chyba że wszystkie efekty są dokładnie takie same), ale z tą samą wariancją. Z drugiej strony reszty mają ten sam rozkład normalny . Wynika to z trzeciego założenia homoscedastyczności.

$Y_{ij}$ $\mu_{j}$ $\sigma^2$ $Y_{ij}=\mu_{j}+\sigma\epsilon_{ij}$ $\epsilon_{ij}$

$\epsilon_{ij}$

$Y_{ij}$

— prawdopodobieństwo prawdopodobieństwa
źródło

+1 za wskazanie (w ostatnim akapicie) założenia homoscedastyczności.

— whuber

Czy to oznacza, że jeśli pozwolimy powiedzieć n grupom zależnym do porównania, musimy sprawdzić ich reszty osobno (co daje n grup reszt)?

— stan

$p$ $n_{j}$ $F = \frac{SS_{b} / df_{b}}{SS_{w} / df_{w}}$

$SS_{b} = \sum_{j=1}^{p}{n_{j} (M - M_{j}})^{2}$

$SS_{w} = \sum_{j=1}^{p}\sum_{i=1}^{n_{j}}{(y_{ij} - M_{j})^{2}}$

$F$ $F$ $SS_{b} / df_{b}$ $SS_{w} / df_{w}$ $\chi^{2}$ $df_{b}$ $df_{w}$ $SS_{b}$ $SS_{w}$ $0$ $M-M_{j}$ $y_{ij}-M_{j}$

$y_{i(j)} - M_{j}$ $Y = \mu_{j} + \epsilon = \mu + \alpha_{j} + \epsilon$ $y_{i(j)} - M$ $Y = \mu + \epsilon$ $M - M_{j}$

$H_{0}$ $M$ $y_{i(j)} - M_{j}$ $M - M_{j}$

— karakal
źródło

S S

$SS$

χ^{2}

$\chi^2$

M_{j} = M

$M_j=M$

j

$j$

y_{i j} - M_{j}

$y_{ij}-M_j$

M_{j} - M

$M_j-M$

@onstop Edytowane w celu odzwierciedlenia twoich wyjaśnień, dzięki!

— caracal