Wydaje się, że ta kwestia cały czas ma brzydką głowę i staram się ją dekapitować dla własnego zrozumienia statystyki (i rozsądku!).
Założenia ogólnych modeli liniowych (test t, ANOVA, regresja itp.) Obejmują „założenie normalności”, ale stwierdziłem, że rzadko jest to jasno opisane.
Często natrafiam na podręczniki / podręczniki statystyki / po prostu stwierdzające, że „założenie normalności” stosuje się do każdej grupy (tj. Zmienne kategorialne X) i powinniśmy zbadać odstępstwa od normalności dla każdej grupy .
Pytania :
czy założenie odnosi się do wartości Y lub reszt Y?
dla konkretnej grupy , czy możliwe jest uzyskanie silnie nietypowego rozkładu wartości Y (np. pochylony) ALE w przybliżeniu (lub przynajmniej bardziej normalny) rozkład reszt Y?
Inne źródła opisują, że założenie dotyczy reszt modelu (w przypadkach, w których istnieją grupy, np. Testy t / ANOVA), i powinniśmy badać odstępstwa od normalności tych reszt (tj. Tylko jeden wykres QQ / test biegać).
czy normalność reszt dla modelu implikuje normalność reszt dla grup ? Innymi słowy, czy powinniśmy po prostu zbadać resztki modelu (w przeciwieństwie do instrukcji w wielu tekstach)?
Aby umieścić to w kontekście, rozważ ten hipotetyczny przykład:
- Chcę porównać wysokość drzewa (Y) między dwiema populacjami (X).
- W jednej populacji rozkład Y jest silnie przekrzywiony w prawo (tj. Większość drzew jest krótka, bardzo mało wysoka), podczas gdy druga jest praktycznie normalna
- Wysokość jest ogólnie wyższa w populacji normalnie rozmieszczonej (co sugeruje, że może istnieć „prawdziwa” różnica).
- Transformacja danych nie poprawia zasadniczo rozkładu pierwszej populacji.
Po pierwsze, czy można porównywać grupy, biorąc pod uwagę radykalnie różne rozkłady wysokości?
Jak podchodzę tutaj do „założenia normalności”? Wysokość przywołania w jednej populacji nie jest zwykle rozkładana. Czy osobno badam pozostałości dla obu populacji LUB pozostałości dla modelu (test t)?
Proszę odnieść się do pytań liczbowych w odpowiedziach, doświadczenie pokazało mi, że ludzie łatwo się gubią lub przechodzą na bok (szczególnie ja!). Pamiętaj, że nie jestem statystykiem; chociaż mam dość koncepcyjne (tj. nie techniczne!) zrozumienie statystyki.
PS. Przeszukałem archiwa i przeczytałem następujące wątki, które nie ugruntowały mojego zrozumienia:
- Założenie ANOVA normalność / rozkład normalny reszt
- Normalność reszt a dane próbki; co z testami t?
- Czy testowanie normalności jest „zasadniczo bezużyteczne”?
- Testowanie normalności
- Ocena normalności dystrybucji
- Jakich testów używam, aby potwierdzić, że resztki są zwykle rozprowadzane?
- Co zrobić, gdy test Kołmogorowa-Smirnowa jest istotny dla reszt testu parametrycznego, ale skośność i kurtoza wyglądają normalnie?