Moja dystrybucja jest normalna; Test Kołmogorowa-Smirnowa nie zgadza się


15

Mam problem z normalnością niektórych danych, które mam: Zrobiłem test Kołmogorowa, który mówi, że nie jest normalne z p = 0,0000, nie rozumiem: skośność mojej dystrybucji = -. 497, i kurtoza = -0,024

Oto fabuła mojej dystrybucji, która wygląda bardzo normalnie ...

(Mam trzy wyniki i każdy z nich nie jest normalny ze znaczną wartością p dla testu Kołmogorowa ... Naprawdę nie rozumiem)

wprowadź opis zdjęcia tutaj

wprowadź opis zdjęcia tutaj


11
Skąd wiesz, że to normalne? Nie wygląda mi to normalnie. Wygląda na przekrzywioną w lewo.
mark999

1
Dlaczego testujesz normalność?
Jack Aidley

Odpowiedzi:


39
  1. Nie masz podstaw do twierdzenia, że ​​Twoje dane są normalne. Nawet jeśli twoje zniekształcenie i nadmierna kurtoza były równe dokładnie 0, nie oznacza to, że twoje dane są normalne. Podczas gdy skośność i kurtoza dalekie od oczekiwanych wartości wskazują na nienormalność, odwrotność nie ma zastosowania. Istnieją niestandardowe rozkłady, które mają tę samą skośność i kurtozę jak normalne. Przykładem jest omawiany tutaj , gęstość, który jest przedstawiony poniżej:
    dgam 2.3

    Jak widać, jest wyraźnie dwumodalny. W tym przypadku rozkład jest symetryczny, więc dopóki istnieją wystarczające momenty, typową miarą skośności będzie 0 (w rzeczywistości będą to wszystkie zwykłe miary). W przypadku kurtozy wkład w 4. momenty z regionu zbliżonego do średniej będzie miał tendencję do zmniejszania kurtozy, ale ogon jest stosunkowo ciężki, co zwykle powoduje, że jest większy. Jeśli wybierzesz dobrze, kurtoza wychodzi z taką samą wartością jak dla normalnej.

  2. Twoja skośność próbki wynosi około -0,5, co sugeruje łagodną skośność w lewo. Zarówno histogram, jak i wykres QQ wskazują to samo - rozkład lekko pochylony w lewo. (Takie łagodne wypaczenie raczej nie będzie stanowić problemu w przypadku większości powszechnych procedur normalnej teorii).

  3. Patrzysz na kilka różnych wskaźników nienormalności, których nie powinieneś oczekiwać a priori , ponieważ uwzględniają różne aspekty dystrybucji; w przypadku niewielkich, lekko niestandardowych próbek często się nie zgadzają.


Teraz do wielkiego pytania: * Dlaczego testowanie normalności *?

[edytowane w odpowiedzi na komentarze:]

Nie jestem do końca pewien, pomyślałem, że powinienem zrobić ANOVA

Należy tu wymienić kilka punktów.

ja. Normalność jest założeniem ANOVA, jeśli używasz jej do wnioskowania (takiego jak testowanie hipotez), ale nie jest szczególnie wrażliwa na nienormalność w większych próbkach - łagodna nienormalność ma niewielki wpływ, a wraz ze wzrostem wielkości próbek rozkład może być stają się bardziej nienormalne, a na test może mieć jedynie niewielki wpływ.

ii. Wygląda na to, że testujesz normalność odpowiedzi (DV). Nie zakłada się (bezwarunkowego) rozkładu samej DV w normie ANOVA. Sprawdzasz resztki, aby ocenić racjonalność założenia o rozkładzie warunkowym (to znaczy, że jest to parametr błędu w modelu, który zakłada się normalny) - tzn. Nie wydajesz się patrzeć na właściwą rzecz. Rzeczywiście, ponieważ kontrola jest wykonywana dla pozostałości, robisz to po dopasowaniu modelu, a nie wcześniej.

iii. Testy formalne mogą okazać się bezużyteczne. Ciekawe pytanie brzmi: „jak bardzo stopień nienormalności wpływa na moje wnioskowanie?”, Na który test hipotezy tak naprawdę nie odpowiada. W miarę powiększania się próbki test staje się coraz bardziej w stanie wykryć trywialne różnice od normalności, podczas gdy wpływ na poziom istotności w ANOVA staje się coraz mniejszy. Oznacza to, że jeśli twoja próbka jest dość duża, test normalności mówi głównie, że masz dużą próbkę, co oznacza, że ​​możesz nie mieć się czym martwić. Przynajmniej za pomocą wykresu QQ masz wizualną ocenę tego, jak nienormalny jest.

iv. przy rozsądnych wielkościach próby inne założenia - takie jak równość wariancji i niezależność - mają na ogół znacznie większe znaczenie niż łagodna nienormalność. Najpierw martw się o inne założenia ... ale znowu, formalne testy nie odpowiadają na właściwe pytanie

v. wybór, czy przeprowadzasz ANOVA, czy jakiś inny test oparty na wyniku testu hipotez, ma zwykle gorsze właściwości niż po prostu decydujesz się postępować tak, jakby to założenie się nie sprawdzało. (Istnieje wiele metod, które są odpowiednie do jednokierunkowych analiz typu ANOVA na danych, które nie są uważane za normalne, z których można korzystać, ilekroć nie uważasz, że masz powód, by zakładać normalność. Niektóre mają bardzo dobrą moc normalnie, a przy przyzwoitym oprogramowaniu nie ma powodu, aby ich unikać).

[Myślę, że miałem odniesienie do tego ostatniego punktu, ale nie mogę go teraz znaleźć; jeśli go znajdę, spróbuję wrócić i włożyć]


Czytam twój histogram jako pokazujący mniej więcej min 12 tryb 48 maks. 60, więc min do trybu wynosi 36, tryb do maksimum 12. Nie należy wnikać zbyt wiele w takie szczegóły, ale są one całkowicie zgodne z lewą skośnością.
Nick Cox,

10

Test Kołmogorowa-Smirnowa ma sporą moc, gdy próbki są duże, więc łatwo można odrzucić hipotezę zerową, że dane nie różnią się od normalności. Innymi słowy, test czasem sugeruje, że rozkład nie jest normalny w dużych próbkach, nawet jeśli jest normalny dla większości intencji.

Pomyśl o tym jak o teście. Jeśli masz dwie populacje, które różnią się wysokością tylko o jedną tysięczną milimetra, niewiarygodnie duże próbki potwierdzą statystycznie, że są one różne, nawet jeśli różnica jest bez znaczenia.

Być może możesz polegać na innych metodach określania normalności swoich danych. Wykresy, których używasz, to dwa dobre przykłady, a także wartości pochylenia / kurtozy.

Ten drugi temat wydaje się szczególnie powiązany: Czy testowanie normalności jest „zasadniczo bezużyteczne”?


No dobrze, wygląda na to, że moja próbka jest dość duża (n = 660), czy jest jakiś inny test, który jest mniej tendencyjny z powodu ogromnej wielkości próbki?
Boo


13
Testy nie są obciążone dużym rozmiarem próbki.
Peter Flom - Przywróć Monikę

10

Test Kołmogorowa – Smirnowa jest pozbawiony dystrybucji, gdy hipoteza zerowa jest w pełni określona - jeśli średnia i wariancja są szacowane na podstawie danych, należy użyć wariantu Lillieforsa podczas testowania normalności (jeśli trzeba). To nie do zrozumienia, inne odpowiedzi.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.