Wybór testu statystycznego na podstawie wyniku innego (np. Normalności)

Słyszałem więc, że powiedziano, że wybór jednego testu statystycznego na podstawie wyniku innego nie jest dobrym pomysłem. Wydaje mi się to jednak dziwne. Na przykład ludzie często wybierają test nieparametryczny, gdy niektóre inne testy sugerują, że reszty nie są normalnie rozłożone. To podejście wydaje się dość powszechnie akceptowane, ale nie zgadza się z pierwszym zdaniem w tym akapicie. Miałem tylko nadzieję uzyskać wyjaśnienie w tej sprawie.

hypothesis-testing

— Jimj
źródło

To, że reszty nie są gaussowskie, nie oznacza, że potrzebujesz testów nieparametrycznych. Zazwyczaj można rozróżnić typ modelu (tak, nie testować) na podstawie charakteru danych (liczba, dane 0 1, ciągłe, zależność średnia-wariancja, zależność liniowa lub nieliniowa itp.) I odpowiednio dopasować modele w celu spełnienia cech danych, które wcześniej zdecydowały, jaka była hipoteza do przetestowania. Gdy poczujesz, że dopasowanie spełnia założenia dopasowanego modelu, możesz ocenić wartość p i inne statystyki,

— Przywróć Monikę - G. Simpson

Odpowiedzi:

Biorąc pod uwagę, że jest prawdopodobieństwem zaobserwowania danych tak ekstremalnych lub bardziej ekstremalnych, jeśli jest prawdą, to jaka jest interpretacja gdzie jest uzyskiwane w procesie, w którym podjęto decyzję warunkową przy wyborze testu, który wytworzył to ? Odpowiedź jest niepoznawalna (lub przynajmniej bardzo niepoznawalna). Podejmując decyzję o uruchomieniu testu, czy nie, na podstawie innego procesu probabilistycznego, interpretacja wyniku była jeszcze bardziej skomplikowana. $p$ $H_0$ $p$ $p$ $p$ $p$ wartości są maksymalnie interpretowalne, gdy wielkość próby i plan analizy zostały wcześniej całkowicie wybrane. W innych sytuacjach interpretacje stają się trudne, dlatego „nie jest to dobry pomysł”. To powiedziawszy, jest to powszechnie akceptowana praktyka ... w końcu, po co nawet męczyć się z przeprowadzeniem testu, jeśli dowiadujesz się, że test, który zaplanowałeś, był nieważny? Odpowiedź na to pytanie jest znacznie mniej pewna. Wszystko sprowadza się do prostego faktu, że testowanie znaczenia hipotezy zerowej (podstawowy przypadek użycia ) ma pewne problemy, które są trudne do przezwyciężenia. $p$

— russellpierce
źródło

Nie mogłem znaleźć żadnych artykułów omawiających to zjawisko w Google, być może dlatego, że użyłem złych wyszukiwanych haseł. Czy ktoś mógłby skierować mnie w stronę artykułu omawiającego problem testów opartych na testach?

— Rob Hall,

@RobHall: Jest to szczególny przypadek „Znaczenie hipotetycznych problemów dla wyimaginowanych danych”. Por. Wagenmakers, 2007, s. 1 784. Wagenmakers konkretnie zwraca uwagę na kwestię transformacji w drugiej kolumnie, stwierdzając: „aby obliczyć wartość ap, musisz wiedzieć, co byś zrobił, gdyby dane okazały się inaczej ... obejmuje to, co byś zrobił, gdyby dane zostały wyraźnie rozłożone nienormalnie ..., wartości p można obliczyć tylko wtedy, gdy plan próbkowania jest w pełni znany i określony z góry ".

— russellpierce

Na przykład ludzie często wybierają test nieparametryczny, gdy niektóre inne testy sugerują, że reszty nie są normalnie rozłożone. To podejście wydaje się dość powszechnie akceptowane, ale nie zgadza się z pierwszym zdaniem w tym akapicie. Miałem tylko nadzieję uzyskać wyjaśnienie w tej sprawie.

Tak, wiele osób robi takie rzeczy i zmienia swój drugi test na taki, który może poradzić sobie z heteroskedastycznością, gdy odrzuca równość wariancji i tak dalej.

To, że coś jest wspólne, nie oznacza, że jest to mądre.

Rzeczywiście, w niektórych miejscach (nie wymienię dyscyplin najgorzej obrażających) wiele z tych formalnych testów hipotez jest uzależnionych od innych formalnych testów hipotez.

Problem z robieniem tego polega na tym, że twoje procedury nie mają swoich nominalnych właściwości, a czasem nawet nie są blisko. (Z drugiej strony, zakładanie takich rzeczy bez jakiegokolwiek uwzględnienia potencjalnie ekstremalnego naruszenia może być jeszcze gorsze.)

Kilka artykułów sugeruje, że w przypadku heteroskedastycznym lepiej jest po prostu zachowywać się tak, jakby wariancje nie były równe, niż testować je i zrobić coś z tym tylko po odrzuceniu.

W przypadku normalności jest to mniej jasne. Przynajmniej w dużych próbkach, w wielu przypadkach normalność nie jest aż tak istotna (ale jak na ironię, przy dużych próbach prawdopodobieństwo testu normalności jest o wiele bardziej prawdopodobne), o ile nienormalność nie jest zbyt dzika. Jedynym wyjątkiem są przedziały prognozowania, w których naprawdę potrzebujesz, aby twoje założenie dystrybucyjne było bliskie prawicy.

Częściowo jednym z problemów jest to, że testy hipotez odpowiadają na inne pytanie niż to, na które należy odpowiedzieć. Naprawdę nie musisz wiedzieć, „czy dane są naprawdę normalne” (prawie zawsze a priori nie będzie to normalne ). Pytanie brzmi raczej „jak bardzo zakres nienormalności wpłynie na moje wnioskowanie”.

Drugi problem jest zwykle albo prawie niezależny od wielkości próbki, albo faktycznie poprawia się wraz ze wzrostem wielkości próbki - jednak testy hipotez prawie zawsze będą odrzucane przy dużych próbkach.

Istnieje wiele sytuacji, w których istnieją solidne lub nawet pozbawione dystrybucji procedury, które są bardzo bliskie w pełni wydajnemu nawet w normalnym (i potencjalnie znacznie bardziej wydajnym przy niektórych dość skromnych odstępstwach od niego) - w wielu przypadkach wydawałoby się głupie nie przyjmować takie samo ostrożne podejście.

— Glen_b - Przywróć Monikę
źródło

Fajne (+1) Czy możesz podać odniesienie do artykułów, które wspomniałeś o przypadku heteroskedastycznym?

— gui11aume

Nie chcę tego podkreślać, ale ciągle natrafiam na nie przez Internet, więc nietrudno jest stwierdzić, które z nich zwykle to podkreślają (są to te same, które historycznie nadmiernie podkreślają testowanie hipotez). Rzeczywiście, dyscypliny ludzi generujących pytania tutaj, w których plakaty myślą, że muszą skorzystać z testów formalnych, byłyby zwykle takie same. To nie tylko jedna lub dwie dyscypliny - widzę wiele - ale niektóre zdają się robić to szczególnie często. Aby było to dość powszechne, mogę jedynie założyć, że były szczególnie znane teksty w tych obszarach, które nalegały na to.

— Glen_b

@ gui11aume Oto odniesienie ... nie jest to jeden z tych, których szukałem, ale ma sens, o co mi chodziło (wstępne testowanie może pogorszyć sytuację).

— Glen_b

Andrew Gelman niedawno napisał pokrewny post na temat heterogeniczności między powiązanymi grupami (przynajmniej o tym, dlaczego taki proces jest problematyczny).

— Andy W

Pytanie związane z tymi dyskusjami od jakiegoś czasu: stats.stackexchange.com/questions/305/…

— russellpierce

Główne problemy zostały dobrze wyjaśnione przez innych, ale są mylone z podstawowymi lub powiązanymi

Nadmierna cześć dla wartości P, co najwyżej jeden rodzaj dowodów w statystykach.
Niechęć do stwierdzenia, że raporty statystyczne są nieuchronnie oparte na kombinacji wyborów, niektóre mocno oparte na dowodach, inne oparte na kombinacji wcześniejszych analiz, intuicji, zgadywania, oceny, teorii itd.

Załóżmy, że ja i mój ostrożny przyjaciel Test Everything wybraliśmy transformację logu w odpowiedzi, ale przechodzę do tego wniosku na podstawie mieszanki fizycznego rozumowania i wcześniejszych doświadczeń z danymi, podczas gdy Test Everything wybiera skalę logu na podstawie testów i oszacowań Box-Coxa parametru.

Teraz oboje używamy tej samej wielokrotnej regresji. Czy nasze wartości P mają różne interpretacje? Według jednej interpretacji, wartości P Test Everything są uzależnione od jej wcześniejszych wniosków. Użyłem również wnioskowania, ale w większości były one nieformalne, oparte na długiej serii wcześniejszych wykresów, obliczeń itp. W poprzednich projektach. Jak to zgłosić?

Oczywiście wyniki regresji są dokładnie takie same dla Testuj wszystko i dla mnie.

Ta sama mieszanka rozsądnych porad i wątpliwej filozofii dotyczy wyboru predyktorów i formy funkcjonalnej. Na przykład ekonomiści są powszechnie uczeni, aby szanować poprzednie dyskusje teoretyczne i uważać na szpiegowanie danych, bez uzasadnionego powodu w każdym przypadku. Ale w najsłabszych przypadkach omawiana teoria jest tylko wstępną sugestią sformułowaną wcześniej w literaturze, bardzo prawdopodobne po przeprowadzeniu analizy empirycznej. Ale literatura literacka uświęca, podczas gdy uczenie się na podstawie dostępnych danych jest podejrzane dla wielu autorów.

— Nick Cox
źródło

Bardzo jasne (+1).

— gui11aume

+1. Istnieje jednak długofalowa różnica w wydajności twoich analiz w porównaniu z analizami Test Everything. Za każdym razem, gdy przeprowadzana jest ta analiza, zastosujesz tę samą strategię, opartą na tym, co napisano w literaturze (która nie zmienia się eksperyment po eksperymencie). OTOH, dane są losową próbą, a wyniki testów Box-Coxa będą się zmieniać w zależności od badania.

— gung - Przywróć Monikę

To zabawne, ale moje doświadczenie też się zmienia, na dłuższą metę.

— Nick Cox,