Normalność zmiennej zależnej = normalność reszt?

Wydaje się, że ta kwestia cały czas ma brzydką głowę i staram się ją dekapitować dla własnego zrozumienia statystyki (i rozsądku!).

Założenia ogólnych modeli liniowych (test t, ANOVA, regresja itp.) Obejmują „założenie normalności”, ale stwierdziłem, że rzadko jest to jasno opisane.

Często natrafiam na podręczniki / podręczniki statystyki / po prostu stwierdzające, że „założenie normalności” stosuje się do każdej grupy (tj. Zmienne kategorialne X) i powinniśmy zbadać odstępstwa od normalności dla każdej grupy .

Pytania :

czy założenie odnosi się do wartości Y lub reszt Y?
dla konkretnej grupy , czy możliwe jest uzyskanie silnie nietypowego rozkładu wartości Y (np. pochylony) ALE w przybliżeniu (lub przynajmniej bardziej normalny) rozkład reszt Y?

Inne źródła opisują, że założenie dotyczy reszt modelu (w przypadkach, w których istnieją grupy, np. Testy t / ANOVA), i powinniśmy badać odstępstwa od normalności tych reszt (tj. Tylko jeden wykres QQ / test biegać).
czy normalność reszt dla modelu implikuje normalność reszt dla grup ? Innymi słowy, czy powinniśmy po prostu zbadać resztki modelu (w przeciwieństwie do instrukcji w wielu tekstach)?

Aby umieścić to w kontekście, rozważ ten hipotetyczny przykład:
- Chcę porównać wysokość drzewa (Y) między dwiema populacjami (X).
- W jednej populacji rozkład Y jest silnie przekrzywiony w prawo (tj. Większość drzew jest krótka, bardzo mało wysoka), podczas gdy druga jest praktycznie normalna
- Wysokość jest ogólnie wyższa w populacji normalnie rozmieszczonej (co sugeruje, że może istnieć „prawdziwa” różnica).
- Transformacja danych nie poprawia zasadniczo rozkładu pierwszej populacji.
Po pierwsze, czy można porównywać grupy, biorąc pod uwagę radykalnie różne rozkłady wysokości?
Jak podchodzę tutaj do „założenia normalności”? Wysokość przywołania w jednej populacji nie jest zwykle rozkładana. Czy osobno badam pozostałości dla obu populacji LUB pozostałości dla modelu (test t)?

Proszę odnieść się do pytań liczbowych w odpowiedziach, doświadczenie pokazało mi, że ludzie łatwo się gubią lub przechodzą na bok (szczególnie ja!). Pamiętaj, że nie jestem statystykiem; chociaż mam dość koncepcyjne (tj. nie techniczne!) zrozumienie statystyki.

PS. Przeszukałem archiwa i przeczytałem następujące wątki, które nie ugruntowały mojego zrozumienia:

normal-distribution residuals normality-assumption

— Dziekan
źródło

„ Pytanie 1) czy założenie odnosi się do wartości Y lub do reszt Y? ” - Ściśle mówiąc, ani , chociaż drugą rzeczą jest to, co sprawdzasz . Zakłada się, że normalne są albo nieobserwowalne błędy , albo równoważnie warunkowy rozkład Y w każdej kombinacji predyktorów. Bezwarunkowy rozkład Y nie jest uważany za normalny.

— Glen_b

+1 Dziękujemy za wysiłek zorganizowania i konsolidacji niektórych (wielu) wątków, w których pojawia się ten problem; to zdecydowanie FAQ.

— whuber

Chciałbym tylko podziękować za to pytanie. Zarówno w odniesieniu do przedmiotu, którego dotyczy, jak i dobrze zorganizowanego i powiązanego. Wiem, że zadałeś to pytanie dawno temu, ale to tylko bardzo dobre pytanie!

— hmmmm

Odpowiedzi:

Jeden punkt, który może pomóc w zrozumieniu:

Jeśli jest normalny i i są stałymi, a $x$ $a$ $b$ jest również zwykle rozkładane (ale z możliwie inną średnią i wariancją). $y=\frac{x-a}{b}$

Ponieważ reszty są tylko wartościami y pomniejszonymi o szacunkową średnią (standaryzowane reszty są również dzielone przez oszacowanie błędu standardowego), to jeśli wartości y są normalnie rozłożone, to reszty są również odwrotne. Kiedy więc mówimy o teorii lub założeniach, nie ma znaczenia, o czym mówimy, ponieważ jedno implikuje drugie.

W przypadku pytań prowadzi to do:

tak, oba też
Nie (jednak poszczególne wartości y będą pochodzić z normalnych przy użyciu różnych środków, które mogą sprawić, że będą wyglądać nienormalnie, jeśli zostaną zgrupowane razem)
Normalność reszt oznacza normalność grup, jednak w niektórych przypadkach dobrze może być zbadanie reszt lub wartości y przez grupy (łączenie może zaciemnić nienormalność, która jest oczywista w grupie) lub spójność w innych przypadkach (niewystarczająca liczba obserwacji na grupę do ustalenia, ale wszystko razem można powiedzieć).
Zależy to od tego, co masz na myśli przez porównanie, jak duża jest twoja próbka i twoich odczuć dotyczących „Przybliżonego”. Założenie normalności jest wymagane tylko w przypadku testów / przedziałów wyników, można dopasować model i opisać oszacowania punktowe, czy istnieje normalność, czy nie. Twierdzenie o granicy centralnej mówi, że jeśli wielkość próby jest wystarczająco duża, wówczas szacunki będą w przybliżeniu normalne, nawet jeśli reszty nie są.
To zależy od pytania, na które próbujesz odpowiedzieć i od tego, jak „przybliżony” jesteś zadowolony.

Inną kwestią, którą należy zrozumieć (ale często jest to błędne w nauce), jest to, że istnieją tutaj 2 rodzaje reszt: Teoretyczne reszty, które są różnicami między obserwowanymi wartościami a prawdziwym modelem teoretycznym, i obserwowane reszty, które są różnicami między zaobserwowanymi wartościami a szacunkami z obecnie dopasowanego modelu. Zakładamy, że teoretyczne reszty są normalne. Obserwowane reszty nie są i, i lub rozkładem normalnym (ale mają średnią 0). Jednak dla celów praktycznych zaobserwowane resztki szacują resztki teoretyczne i dlatego są nadal przydatne w diagnostyce.

— Greg Snow
źródło

Aby uzyskać więcej informacji o błędach i pozostałościach, uważam, że warto przeczytać ten artykuł na wiki en.wikipedia.org/wiki/Errors_and_residuals

— Lil'Lobster

y - \hat{y}

$y - \hat y$

y

$y$

\hat{y}

$\hat{y}$

-

$-$

W Q1 (co jest poniekąd potwierdzone w odpowiedzi na Q2): Oczywiście jest to pozostałość, a nie Y w ogóle. Gdy zmienne towarzyszące różnią się między obserwacjami, można łatwo uzyskać bimodalny rozkład brzeżny, mimo że reszty są normalne. Dlatego nie można po prostu patrzeć na Y, tylko na resztki.

— Björn

@Bjorn, to jest dobre wyjaśnienie. Zmienne y są normalne, zależne od x, więc surowe wartości y są mieszaniną normalnych, a wykres tylko wartości y może nie wykazywać normalności, nawet jeśli spełniają założenie, że są normalne warunkowo na x. Do diagnostyki zwykle używamy resztek (ponieważ część warunkowa została w większości usunięta). Założenie (warunkowej) normalności dotyczy zarówno teoretycznych reszt, jak i wartości y.

— Greg Snow

Krótkie odpowiedzi:

pozostałości
Nie
zależy, oba podejścia mają zalety i wady
Dlaczego nie? Bardziej sensowne może być porównywanie median zamiast średnich.
z tego, co nam powiedziałeś, założenie normalności prawdopodobnie zostało naruszone

Dłuższa odpowiedź:

Zakłada się, że zmienna zależna (y) jest zwykle rozkładana, ale z różnymi środkami dla różnych grup. W rezultacie, jeśli wykreślisz tylko rozkład y, może łatwo wyglądać zupełnie inaczej niż standardowa krzywa normalna w kształcie dzwonu. Reszty reprezentują rozkład y z tymi różnicami w środkach „odfiltrowanych”.

Alternatywnie, możesz spojrzeć na rozkład y w każdej grupie osobno. To również odfiltrowuje różnice w średnich między grupami. Zaletą jest to, że w ten sposób uzyskujesz również informacje o rozkładzie w każdej grupie, co w twoim przypadku wydaje się istotne. Wadą jest to, że każda grupa zawiera mniej obserwacji niż połączony zestaw danych, który można uzyskać, patrząc na pozostałości. Co więcej, nie będziesz w stanie sensownie porównać grup, jeśli masz wiele grup, np. Ponieważ wprowadziłeś wiele zmiennych predykcyjnych do swojego modelu lub (quasi) ciągłą zmienną predykcyjną do swojego modelu. Więc jeśli twój model składa się tylko z jednej jakościowej zmiennej predykcyjnej, a liczba obserwacji w każdej grupie jest wystarczająco duża, wówczas sensowne może być sprawdzenie rozkładu y w każdej grupie osobno.

— Maarten Buis
źródło

Ściśle mówiąc, reszty są jedynie szacunkami nieznanych i nieznanych błędów lub zakłóceń, więc nawet jeśli normalność jest w zasadzie prawidłowa, nie można uzyskać dokładnie normalnych reszt w praktyce. Co ważniejsze, normalność błędów jest najmniej ważnym założeniem w tych metodach!

— Nick Cox

@NickCox (+1) zgodził się w obu kwestiach

— Maarten Buis

$Y$ $X$
$X$ $Y$

$e$ $Y$ $\epsilon$ $X$
$Y$ $Y|X-N(X\beta,\sigma^2)$
$X$ $Y$ $Y|X$

$Y$ $X$

Pytanie 3)
Ważną rzeczą przy stosowaniu modeli liniowych wymagających normalności jest to, że reszty, które nie są normalne, niezależnie od tego, czy jest to grupa, czy nie, są ważnym wskaźnikiem, że model może nie pasować do twoich danych.
Jeśli wykonujesz ANOVA, to oczywiście twoje ogólne pozostałości nie muszą być normalne (lub raczej homoscedastyczne), to nie miałoby sensu. Jednak w regresji lepiej mieć model z końcowymi normalnymi resztami. Jeśli nie, estymatory przedziałów i testy będą błędne. Może tak być w przypadku niektórych autokorelacji lub braku zmienności stronniczości. Jeśli model jest w 100% poprawny (w tym ewentualnie strukturalne pęknięcia i w razie potrzeby ważenie), nie jest zbyt daleko idące założenie normalnych terminów błędów, nawet wyśrodkowanych wokół 0. Praktycznie często pojawia się pytanie: czy możemy uniknąć tych rzeczy, jeśli próbka jest wystarczająco duży? Nie ma ostatecznej odpowiedzi, ale dla 100% poprawnego podejścia tak, wszystkie pozostałości powinny być normalne.

Pytanie 4 i 5)
Zależy to od tego, co masz na myśli przez porównanie. Biorąc pod uwagę założenie normalnych warunków błędu, możesz testować w oparciu o założenie dwóch różnych rozkładów. Możesz także użyć oszacowania GLS do regresji, aby uwzględnić różne parametry rozkładu - JEŻELI masz odpowiedni model ... i zgaduję, że same grupy działają jako zmienna wskaźnikowa / binarna?
Wtedy prawdopodobnie bardzo trudno byłoby uzasadnić, że rozkład resztek będzie normalny - konsekwencją jest to, że chociaż możesz robić rzeczy z danymi, nie będzie to oparte na zwykłym OLS.
Ale to zależy od tego, co chcesz zrobić z danymi.

$Y|X$

Myślę, że dobrym podejściem byłoby przyjrzenie się algebrze zwykłego OLS z naciskiem na wynikowe rozkłady.

— IMA
źródło