Odejście od założenia normalności w ANOVA: czy kurtoza lub skośność są ważniejsze?


12

Zastosowane liniowe modele statystyczne Kutnera i in. stwierdza, co do odstępstw od założenia normalności modeli ANOVA: Kurtoza rozkładu błędów (mniej lub bardziej pikowany niż rozkład normalny) jest ważniejsza niż skośność rozkładu pod względem wpływu na wnioskowanie .

Jestem nieco zdziwiony tym stwierdzeniem i nie udało mi się znaleźć żadnych powiązanych informacji, ani w książce, ani w Internecie. Jestem zdezorientowany, ponieważ dowiedziałem się również, że wykresy QQ z ciężkimi ogonami wskazują, że założenie normalności jest „wystarczająco dobre” dla modeli regresji liniowej, podczas gdy przekrzywione wykresy QQ są bardziej niepokojące (tzn. Może być odpowiednia transformacja) .

Czy mam rację, że to samo rozumowanie dotyczy ANOVA i że ich wybór słów ( ważniejszy pod względem wpływu na wnioski ) został po prostu źle wybrany? Tj. Wypaczony rozkład ma poważniejsze konsekwencje i należy go unikać, podczas gdy niewielka ilość kurtozy może być do zaakceptowania.

EDYCJA: Jak powiedział rolando2, trudno stwierdzić, że jedno jest ważniejsze od drugiego we wszystkich przypadkach, ale szukam jedynie ogólnego wglądu. Moim głównym problemem jest to, że nauczono mnie, że w prostej regresji liniowej wykresy QQ z cięższymi ogonami (= kurtoza?) Są OK, ponieważ test F jest dość odporny na to. Z drugiej strony skośne wykresy QQ (w kształcie paraboli) są zwykle większym problemem. Wydaje się to być sprzeczne z wytycznymi mojej instrukcji ANOVA, mimo że modele ANOVA można konwertować na modele regresji i powinny one mieć takie same założenia.

Jestem przekonany, że coś przeoczam lub mam fałszywe założenie, ale nie mogę zrozumieć, co to może być.


3
W swojej recenzji kurtozy DeCarlo (1997) zasugerował dokładnie odwrotnie, że skośność była ważniejsza w ANOVA i innych testach równości średnich. Przydatne mogą być cytowania na stronie 297: columbia.edu/~ld208/psymeth97.pdf
Anthony

1
Uważam, że pytanie jest najbardziej produktywne, jeśli można je przełożyć na stwierdzenie takie jak: „Skośność jest o wiele ważniejsza dla wnioskowania niż kurtoza, że ​​skośność na poziomie ___ zwykle zniekształca wyniki tak bardzo, jak kurtoza na poziomie ___ . ” Bez takiej kwantyfikacji samo stwierdzenie, że jedno lub drugie jest ważniejsze, niewiele nam pomaga.
rolando2

Ta symulacja emis.de/journals/HOA/ADS/Volume7_4/206.pdf autorstwa Chana i Raynera (2003) w DZIENNIKU NAUKI MATEMATYKI I NAUK DECYZYJNYCH stwierdza, że ​​„zarówno na testy ANOVA, jak i Kruskala-Wallisa w znacznie większym stopniu wpływa kurtoza rozkładu błędów, a nie jego skośności ”(s. 204).
bsbk

Niezwykle ściśle powiązane pytanie dotyczące testu t dla dwóch próbek - w rzeczywistości jednokierunkowej ANOVA z dwoma poziomami czynnika - brzmi stats.stackexchange.com/questions/38967/ ... ... Obecnie istnieje nagroda za dodanie odniesienia, ponieważ żadna z istniejących odpowiedzi nie zawiera cytatów, więc osoby, które odpowiedzą na to pytanie, mogą na nie rzucić okiem.
Silverfish,

Zgadzam się z @ rolando2: „skośność jest gorsza niż kurtoza” lub vice versa jest raczej pustym stwierdzeniem, nie wspominając o stopniu skosu / kurtozy. Ale trzeba też wziąć pod uwagę więcej! Na przykład odporność na tego rodzaju naruszenia normalności częściowo zależy od tego, czy wielkości grup są równe , a odporność na skośność może zależeć od kierunku skosu - gorzej, jeśli jedna grupa jest przekrzywiona w jedną stronę, a druga grupa przekrzywiona przeciwnie, niż gdyby obie grupy były przekrzywione w tym samym kierunku. (To z pamięci i powtórnych testów, ale jest to rodzaj ANOVA.)
Silverfish,

Odpowiedzi:


6

Trudność polega na tym, że skośność i kurtoza są zależne; ich efektów nie można całkowicie oddzielić.

Problem polega na tym, że jeśli chcesz zbadać efekt bardzo wypaczonego rozkładu, musisz także mieć rozkład o wysokiej kurtozie.

2)+1

* (zwykła skalowana kurtoza czwartej chwili, nie kurtoza nadmierna)

Khan i Rayner (o którym wspomniano we wcześniejszej odpowiedzi) współpracują z rodziną, która pozwala na pewne badanie wpływu skosu i kurtozy, ale nie mogą uniknąć tego problemu, więc ich próba ich oddzielenia poważnie ogranicza zakres, w jakim efekt skośność można badać.

β2)β2)-1

Na przykład, jeśli chcesz zobaczyć efekt wysokiej skośności - powiedzmy skośność> 5, nie możesz uzyskać rozkładu z kurtozą mniejszego niż 26!

Więc jeśli chcesz zbadać wpływ wysokiej skośności, nie możesz uniknąć badania wpływu wysokiej kurtozy. W konsekwencji, jeśli spróbujesz je rozdzielić, w efekcie nie będziesz w stanie ocenić efektu zwiększenia skośności do wysokich poziomów.

To powiedziawszy, przynajmniej dla rozważanej przez nich rodziny dystrybucyjnej oraz w granicach, jakie stawiają między nimi relacje, dochodzenie Khan i Raynera wydaje się sugerować, że głównym problemem jest kurtoza.

>2)


11

Ten problem został rozwiązany w „Odporność na nienormalność typowych testów dla problemu lokalizacji wielu próbek” autorstwa Khan i Rayner.

Okazało się, że testy ANOVA są znacznie bardziej dotknięte kurtozą niż skośnością, a efekt skośności nie jest związany z jego kierunkiem.

Jeśli podejrzewa się odchylenia od normalności, lepszym wyborem może być test Kruskala-Wallisa. Test Kruskala-Wallisa jest bardziej odporny na odchylenia od normalności, ponieważ bada hipotezę, że mediany leczenia są identyczne. ANOVA sprawdza hipotezę, że środki leczenia są identyczne.


Czy to oznacza również, że powinienem inaczej interpretować wykresy QQ dla regresji liniowej i ANOVA? Większość transformacji, które wykonałem, zmniejszyło skośność, ale pozostawiło nieco ciężkie ogony (= kurtoza?). Miałem wrażenie, że test F był wystarczająco solidny, aby poradzić sobie z tym drugim, ale nie pierwszym. A może to „ciężkie ogony są w porządku” z mojej strony nieporozumienie? Nie mogę sobie wyobrazić, że istnieje tak fundamentalna różnica między nimi, ponieważ modele ANOVA można również przepisać jako modele regresji liniowej.
Zenit
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.