Wprowadzenie: Po zwróceniu uwagi na to pytanie: „ Czy ANOVA może być znacząca, gdy żaden z testów t-par nie jest? ”, Pomyślałem, że może uda mi się zmienić jej ramkę w interesujący sposób, który zasługiwałby na własny zestaw odpowiedzi .
Różnorodność niepoprawnych wyników (według wartości nominalnej) może wystąpić, gdy istotność statystyczna jest rozumiana jako prosta dychotomia i oceniana na podstawie której podstawy jest wyższa, lub α . Odpowiedź @ Glen_b na powyższe pytanie stanowi użyteczny przykład przypadku, w którym:
- Test ANOVA daje p F < 0,05 dla jednej zmiennej niezależnej (IV) z czterema poziomami, ale
- dla wszystkich dwóch prób t, które porównują różnice w tej samej zmiennej zależnej (DV) między obserwacjami odpowiadającymi każdej parze z czterech poziomów IV.
Podobny przypadek powstał pomimo poprawek Bonferroniego dla porównań par post-hoc za pomocą tego pytania: powtarzane pomiary Anova są znaczące, ale wszystkie wielokrotne porównania z poprawką Bonferroniego nie są? Istnieją również wcześniej wspomniane przypadki z nieco innym testem w regresji wielokrotnej:
- Dlaczego możliwe jest uzyskanie istotnej statystyki F (p <0,001), ale nieistotnych testów regresora? :
- W jaki sposób regresja może być znacząca, ale wszystkie predyktory mogą być nieistotne?
- W @ whuber na odpowiedź ,
Założę się, że w takich przypadkach niektóre (ale nie wszystkie) porównania parami (lub „testy istotności współczynników regresji”) wartości muszą być dość zbliżone do α, jeśli odpowiedni test zbiorczy może osiągnąć p < α . Widzę to ma miejsce w pierwszym przykładzie Glen_b @, gdzie , p F = 0,046 , a największa różnica parami daje najmniejszą s t = .054 . Czy tak musi być w ogóle? W szczególności :
Pytanie: Jeśli test ANOVA daje p F = 0,05 dla efektu jednego polytomicznego IV na ciągłym DV, jak wysoka może być najniższa wartość p spośród wszystkich dwóch prób t, które porównują każdą parę poziomów IV? Czy minimalne znaczenie parami może być tak wysokie, jak p t = 0,50 ?
Z zadowoleniem przyjmuję odpowiedzi, które dotyczą tylko tego konkretnego pytania . Jednak, aby dalej motywować to pytanie, rozwinę je i przedstawię kilka potencjalnie retorycznych pytań. Zachęcamy również do rozwiązania tych problemów, a nawet zignorowania konkretnego pytania, jeśli chcesz, zwłaszcza jeśli konkretne pytanie uzyska ostateczną odpowiedź.
Istotność: Zastanów się, o ile mniej istotna byłaby różnica między i p t = 0,06 , gdyby istotność statystyczną oceniano w sposób ciągły pod względem siły dowodów w stosunku do hipotezy zerowej (jak sądzę, podejście Rona Fishera? ), a nie dychotomicznie, jak powyżej lub poniżej progu α = 0,05 dla dopuszczalnego prawdopodobieństwa błędu przy wyborze, czy odrzucić zerową wartość hurtową. „ hakowanie p ” jest znanym problemem, który częściowo zawdzięcza swoją uwagę niepotrzebnej podatności wprowadzonej przez interpretację pwartości zgodnie z powszechną praktyką dzielenia znaczenia na ekwiwalenty „wystarczająco dobrego” i „niewystarczającego”. Gdyby porzucić tę praktykę i zamiast tego skupić się na interpretowaniu wartości jako siły dowodu w odniesieniu do wartości zerowej w ciągłym przedziale, czy testowanie zbiorcze może być nieco mniej ważne, gdy naprawdę zależy na wielu porównaniach parami? Niekoniecznie niekoniecznie, ponieważ pożądana jest jakakolwiek racjonalna poprawa dokładności statystycznej, ale ... jeśli, na przykład, wartość p najniższego porównania parami jest koniecznie w granicach .10 ANOVA (lub innego testu zbiorczego) pwartość, czy to nie czyni testu omnibus nieco bardziej trywialnym, mniej obowiązkowym, a nawet bardziej mylącym (w połączeniu z wcześniejszymi nieporozumieniami), zwłaszcza jeśli nie chce się szczególnie kontrolować w wielu testach?
I odwrotnie, jeśli dane mogą istnieć tak, że omnibus , ale wszystkie pary p > .50 , czy nie powinno to jeszcze bardziej motywować do testów omnibus i kontrastów w trakcie praktyki i pedagogiki? Wydaje mi się, że kwestia ta powinna również informować o względnych zaletach oceny istotności statystycznej zgodnie z dychotomią vs. jest bezpieczny przed niewykonaniem testu zbiorczego lub skorygowaniem dla wielu porównań, jeśli ta różnica / regulacja może być bardzo duża (np. p t - p F > w teorii.
Inne opcjonalne złożoności, które należy rozważyć lub zignorować - cokolwiek sprawia, że udzielanie odpowiedzi jest łatwiejsze i bardziej opłacalne :
- Jak wysokie może być s dla t s, jeśli zamiast F , p < 0,05 (np. P = 0,01 , 0,001 , … )
- Wrażliwość na liczbę poziomów w polytomous IV
- Wrażliwość na nierówności w znaczeniu różnic par (podczas gdy wszystkie )
- odpowiedź Whubera wskazuje, że włączenie małych różnic może maskować duże różnice.
- Różnice między poprawkami różnych testów zbiorczych dla wielu porównań
- Zobacz także: Korygowanie wielokrotnych porównań ANOVA w obrębie badanych / powtarzanych pomiarów; nadmiernie konserwatywny?
- W przypadku wielu IV wydaje się, że wielokoliniowość może zaostrzyć ten problem .
- Ograniczone przypadki, w których dane optymalnie spełniają wszystkie założenia klasycznych testów parametrycznych
- Ograniczenie to może być ważne, aby zapobiec temu podejrzeniu.