Wydaje się, że kiedy spełnione jest założenie jednorodności wariancji, wyniki skorygowanego testu t Welcha i standardowego testu t są w przybliżeniu takie same. Dlaczego po prostu nie zawsze używać dostosowanego t Welch?
Wydaje się, że kiedy spełnione jest założenie jednorodności wariancji, wyniki skorygowanego testu t Welcha i standardowego testu t są w przybliżeniu takie same. Dlaczego po prostu nie zawsze używać dostosowanego t Welch?
Odpowiedzi:
Chciałbym sprzeciwić się pozostałym dwóm odpowiedziom na podstawie artykułu (w języku niemieckim) Kubingera, Rascha i Moder (2009) .
Argumentują, opierając się na „rozległych” symulacjach z rozkładów, które spełniają lub nie spełniają założeń narzuconych przez test t (normalność i jednorodność wariancji), że testy welchowe działają równie dobrze, gdy założenia są spełnione (tj. Zasadniczo takie same prawdopodobieństwo popełnienia błędów alfa i beta), ale przewyższa test t, jeśli założenia nie są spełnione, zwłaszcza pod względem mocy. Dlatego zaleca się, aby zawsze stosować test Welch, jeśli wielkość próbki przekracza 30.
Jako meta-komentarz: dla osób zainteresowanych statystykami (takich jak ja i prawdopodobnie większość innych tutaj) argument oparty na danych (jak mój) powinien co najmniej liczyć się równo z argumentami opartymi wyłącznie na podstawach teoretycznych (tak jak inne tutaj).
Aktualizacja:
Po ponownym przemyśleniu tego tematu znalazłem dwie dalsze rekomendacje, z których nowsze wspierają mój punkt widzenia. Spójrz na oryginalne artykuły (które są, przynajmniej dla mnie, ogólnie dostępne), na argumenty, które prowadzą do tych zaleceń.
Pierwsze zalecenie pochodzi od Graeme D. Ruxton w 2006 r .: „ Jeśli chcesz porównać tendencję centralną 2 populacji na podstawie próbek niepowiązanych danych, wówczas należy zawsze zastosować test t wariancji nierówności zamiast testu t Studenta lub test U Manna – Whitneya. ”
W:
Ruxton, GD, 2006. Test t nierówności wariancji jest niewykorzystaną alternatywą dla testu t Studenta i testu U Manna – Whitneya .
Behav Ecol . 17, 688–690.
Drugie (starsze) zalecenie pochodzi od Coombs i in. (1996, s. 148): „ Podsumowując, test t niezależnych próbek jest ogólnie akceptowalny pod względem kontrolowania poziomów błędów typu I, pod warunkiem, że istnieją wystarczająco duże próbki o równej wielkości, nawet gdy naruszone zostanie założenie równej wariancji populacji. Dla nierównych -wymiary próbek, jednak preferowana jest alternatywa, która nie zakłada równych wariancji populacji. Użyj testu Jamesa drugiego rzędu, gdy rozkłady są albo symetryczne krótko-normalne, albo normalne. Obiecujące alternatywy obejmują testy środków przyciętych Wilcox H i Yuen, które zapewniają szersza kontrola wskaźników błędów typu I niż test Welcha lub Jamesa i mają większą moc, gdy dane są długookresowe. ” (wyróżnienie dodane)
W:
Coombs WT, Algina J, Oltman D. 1996. Wybrano jedno- i wielowymiarowe omnibusowe testy hipotez wybrane w celu kontroli poziomów błędów typu I, gdy wariancje populacji niekoniecznie są równe . Rev Educ Res 66: 137–79.
oczywiście można porzucić oba testy i rozpocząć stosowanie tesesowskiego testu t (test Savage'a-Dickeya), który może uwzględniać nierówne i nierówne wariancje, a co najważniejsze, pozwala na kwantyfikację dowodów na korzyść hipoteza zerowa (co oznacza, że nie ma już mowy o „nieudanym odrzuceniu”)
Ten test jest bardzo prosty (i szybki) do wdrożenia, a jest artykuł, który jasno wyjaśnia czytelnikom niezaznajomionym z statystyki Bayesa, jak go używać, wraz ze skryptem R. możesz po prostu wstawić swoje dane i wysłać polecenia do konsoli R.
na ten temat znajduje się także samouczek z przykładowymi danymi:
http://www.ruudwetzels.com/index.php?src=SDtest
Wiem, że nie jest to bezpośrednia odpowiedź na to, o co pytano, ale pomyślałem, że czytelnicy mogą cieszyć się z tej miłej alternatywy
Twoje zdrowie
Ponieważ dokładne wyniki są lepsze niż aproksymacje i należy unikać nieparzystych przypadków krawędzi, w których aproksymacja może prowadzić do innego wyniku niż dokładna metoda.
Metoda Welcha nie jest szybszym sposobem na wykonanie jakiegokolwiek starego testu t, jest możliwym do przyjęcia przybliżeniem bardzo trudnego problemu: jak skonstruować test t przy nierównych wariancjach. Przypadek równej wariancji jest dobrze zrozumiały, prosty i dokładny, dlatego należy go zawsze stosować, gdy jest to możliwe.
Mogę wymyślić dwa powody:
Zwykła T Studenta jest dość odporna na heteroscedastyczność, jeśli wielkości próbek są równe.
Jeśli mocno wierzysz z góry, że dane są homoscedastyczne, nic nie tracisz i możesz zyskać niewielką moc, używając Studen'ts T zamiast Welch's T.
Jednym z powodów, których nie podałbym, jest to, że T Studenta jest dokładne, a T Welcha nie. IMHO dokładność T Studenta ma charakter akademicki, ponieważ jest dokładna tylko dla normalnie dystrybuowanych danych i żadne rzeczywiste dane nie są dokładnie normalnie dystrybuowane. Nie mogę wymyślić jednej wielkości, którą ludzie faktycznie mierzą i analizują statystycznie, gdzie rozkład mógłby mieć wiarygodne poparcie dla wszystkich liczb rzeczywistych. Na przykład we wszechświecie jest tylko tyle atomów, a niektóre ilości nie mogą być ujemne. Dlatego, gdy używasz dowolnego rodzaju testu T na rzeczywistych danych, i tak przybliżasz się.
Fakt, że coś bardziej złożonego sprowadza się do czegoś mniej złożonego, gdy sprawdzane jest pewne założenie, nie wystarczy, aby odrzucić prostszą metodę.
Przyjąłbym tutaj przeciwny pogląd. Po co zawracać sobie głowę testem Welcha, gdy standardowy niesparowany test t studenta daje prawie identyczne wyniki. Studiowałem ten problem jakiś czas temu i badałem szereg scenariuszy, próbując rozbić test t i faworyzować test Welcha. Aby to zrobić, użyłem wielkości próbek do 5 razy większych dla jednej grupy niż dla drugiej. Badałem wariancje do 25 razy większe dla jednej grupy niż dla drugiej. I tak naprawdę nie miało to istotnego znaczenia. Niesparowany test t nadal generował zakres wartości p, które były prawie identyczne z testem Welcha.
Możesz zobaczyć moją pracę pod poniższym linkiem i skupić się szczególnie na slajdzie 5 i 6.
Prawdą jest, że częstościowe właściwości testu poprawionego przez Welcha są lepsze niż T zwykłego Studenta, przynajmniej w przypadku błędów. Zgadzam się, że sam ten fakt jest całkiem dobrym argumentem dla testu Welcha. Jednak zwykle niechętnie zalecam korektę Welcha, ponieważ jej użycie jest często mylące. Co nie jest wprawdzie krytyką samego testu.
Powodem, dla którego nie zalecam korekcji Welcha, jest to, że nie tylko zmienia ona stopnie swobody i późniejszy rozkład teoretyczny, z którego czerpana jest wartość p. To sprawia, że test jest nieparametryczny. Aby wykonać test t skorygowany przez Welcha, nadal zbiera się wariancję, tak jakby można było założyć taką samą wariancję, ale następnie zmienia się końcową procedurę testową, sugerując, że nie można założyć równej wariancji, lub że zależy tylko na wariancjach próbki. To sprawia, że jest to test nieparametryczny, ponieważ połączona wariancja jest uważana za niereprezentatywną dla populacji i przyznałeś, że właśnie testujesz zaobserwowane wartości.
Sam w sobie nie ma w tym nic szczególnie złego. Uważam to jednak za zwodnicze, ponieważ: a) zazwyczaj nie jest zgłaszane z wystarczającą dokładnością; oraz b) ludzie, którzy go używają, zwykle myślą o tym zamiennie z testem t. Jedynym sposobem, w jaki kiedykolwiek wiem, że dokonano tego w opublikowanych artykułach, jest to, że widzę dziwny DF dla rozkładu t. To był również jedyny sposób, w jaki Rexton (wymieniony w odpowiedzi Henrika) mógł powiedzieć w recenzji. Niestety, nieparametryczny charakter testu z poprawką Welcha występuje niezależnie od tego, czy stopnie swobody uległy zmianie, czy nie (tj. Nawet jeśli wariancje próbki są równe). Ale ten problem z raportowaniem jest symptomatyczny z faktu, że większość osób korzystających z korekcji Welcha nie rozpoznaje tej zmiany w teście.
Dlatego z tego powodu uważam, że jeśli zamierzasz polecić test nieparametryczny, nie używaj testu, który często wydaje się parametryczny, lub przynajmniej bardzo jasno określaj, co robisz. Oficjalna nazwa testu powinna być nieparametrycznym testem T z poprawką Welcha. Gdyby ludzie tak to zgłaszali, byłbym znacznie bardziej zadowolony z rekomendacji Henrika.