Do tej pory używałem statystyki Shapiro-Wilka do testowania założeń normalności w małych próbkach.
Czy możesz polecić inną technikę?
Do tej pory używałem statystyki Shapiro-Wilka do testowania założeń normalności w małych próbkach.
Czy możesz polecić inną technikę?
Odpowiedzi:
FBasics pakiet R (część Rmetrics ) zawiera kilka testów normalność , obejmujący wiele popularnych testów częstościowym - Kołmogorow-smirnov Shapiro-Wilka Jarque-Bera, D'Agostino - wraz z otuliną do testu normalności w pakiecie północnym - Anderson – Darling, Cramer – von Mises, Lilliefors (Kolmogorov-Smirnov), Pearson chi – square i Shapiro – Francia. Dokumentacja pakietu zawiera również wszystkie ważne odniesienia. Oto demo, które pokazuje, jak korzystać z testów z północy .
Jednym ze sposobów, jeśli masz czas, jest skorzystanie z więcej niż jednego testu i sprawdzenie zgody. Testy różnią się na wiele sposobów, więc wybór „najlepszego” nie jest prosty. Z czego korzystają inni badacze w Twojej dziedzinie? Może się to różnić i najlepiej trzymać się przyjętych metod, aby inni zaakceptowali Twoją pracę. Często używam testu Jarque-Bera, częściowo z tego powodu, i Andersona-Darlinga dla porównania.
W celu porównania i omówienia zagadnień można zapoznać się z „Porównanie testów dla normalnej zmienności ” (Seier 2002) i „Porównanie różnych testów normalności” (Yazici; Yolacan 2007).
Testowanie tych metod do porównywania w języku R jest również trywialne dzięki wszystkim funkcjom dystrybucji . Oto prosty przykład z symulowanymi danymi (nie wydrukuję wyników, aby zaoszczędzić miejsce), chociaż wymagana byłaby pełniejsza prezentacja:
library(fBasics); library(ggplot2)
set.seed(1)
# normal distribution
x1 <- rnorm(1e+06)
x1.samp <- sample(x1, 200)
qplot(x1.samp, geom="histogram")
jbTest(x1.samp)
adTest(x1.samp)
# cauchy distribution
x2 <- rcauchy(1e+06)
x2.samp <- sample(x2, 200)
qplot(x2.samp, geom="histogram")
jbTest(x2.samp)
adTest(x2.samp)
Po uzyskaniu wyników z różnych testów dla różnych rozkładów możesz porównać, które były najbardziej skuteczne. Na przykład wartość p dla powyższego testu Jarque-Bera zwróciła 0,276 dla rozkładu normalnego (akceptacja) i <2,2e-16 dla cauchy (odrzucenie hipotezy zerowej).
Dla normalności, rzeczywisty Shapiro-Wilk ma dobrą moc w dość małych próbkach.
Głównym konkurentem w badaniach, które widziałem, jest bardziej ogólny Anderson-Darling, który radzi sobie całkiem dobrze, ale nie powiedziałbym, że było lepiej. Jeśli możesz wyjaśnić, jakie alternatywy Cię interesują, być może lepsza statystyka byłaby bardziej oczywista. [edytuj: jeśli oszacujesz parametry, test AD powinien być dostosowany do tego.]
[Zdecydowanie odradzam rozważanie Jarque-Bery w małych próbkach (które prawdopodobnie lepiej znane jako Bowman-Shenton w kręgach statystycznych - badali rozkład małych próbek). Asymptotyczny wspólny rozkład skośności i kurtozy w niczym nie przypomina rozkładu małych próbek - w ten sam sposób banan nie wygląda bardzo jak pomarańcza. Ma również bardzo niską moc w porównaniu z niektórymi interesującymi alternatywami - na przykład ma niską moc, aby wychwycić symetryczny rozkład bimodalny, który ma kurtozę zbliżoną do rozkładu normalnego.]
Często ludzie sprawdzają poprawność dopasowania z powodów, które nie są szczególnie dobre, lub odpowiadają na pytanie inne niż to, na które naprawdę chcą odpowiedzieć.
Na przykład prawie na pewno już wiesz, że twoje dane nie są tak naprawdę normalne (nie do końca), więc nie ma sensu próbować odpowiadać na pytanie, na które znasz odpowiedź - a test hipotez i tak nie odpowiada .
Biorąc pod uwagę, że wiesz, że nie masz jeszcze dokładnej normalności, twój test hipotezy normalności naprawdę daje odpowiedź na pytanie bliższe: „czy moja próbka jest wystarczająco duża, aby wykryć ilość nienormalności, którą mam”, podczas gdy prawdziwe pytanie, na które chcesz odpowiedzieć, jest zwykle bliższe „jaki jest wpływ tej nienormalności na inne rzeczy, którymi jestem zainteresowany?”. Test hipotezy mierzy wielkość próby, podczas gdy pytanie, na które chcesz odpowiedzieć, nie jest bardzo zależne od wielkości próby.
Są chwile, kiedy testowanie normalności ma jakiś sens, ale takie sytuacje prawie nigdy nie zdarzają się przy małych próbkach.
Dlaczego testujesz normalność?
Istnieje cała kategoria Wikipedii dotycząca testów normalności, w tym:
Myślę, że AD jest prawdopodobnie najlepszym z nich.
Dla kompletności ekonometrycy lubią także test Kiefera i łososia z ich artykułu z Economics Letters z 1983 r. - podsumowuje on „znormalizowane” wyrażenia skośności i kurtozy, które są następnie rozkładane chi-kwadrat. Mam starą wersję C ++, którą napisałem w szkole podstawowej, którą mogłem przetłumaczyć na R.
Edycja: A oto najnowszy artykuł Bierensa (ponownie) wyprowadzający Jarque-Bera i Kiefer-Salmon.
Edycja 2: Przejrzałem stary kod i wydaje się, że to naprawdę ten sam test między Jarque-Bera i Kiefer-Salmon.
W rzeczywistości test Kiefera z łososiem i test Jarque Bera są krytycznie różne, jak pokazano w kilku miejscach, ale ostatnio tutaj - Testy chwilowe dla standardowych rozkładów błędów: proste solidne podejście autorstwa Yi-Ting Chena. Konstrukcja testu łososia Kiefera jest solidna w obliczu struktur błędów typu ARCH, w przeciwieństwie do standardowego testu Jarque Bera. Artykuł Yi-Tinga Chena rozwija i omawia to, co według mnie może być obecnie najlepszymi testami.
W przypadku próbek o wielkości <30 osób uważa się, że Shapiro-Wilk ma solidną moc - należy zachować ostrożność podczas dostosowywania poziomu istotności testu, ponieważ może to spowodować błąd typu II! [1]