Jaka jest różnica między „statystycznym testem hipotezy zerowej” a jakimkolwiek innym testem?

Niedawny gorący temat dyskusji dotyczy czasopisma zakazującego stosowania „procedur testowania statystycznego hipotez zerowych (NHSTP)” z artykułów przesyłanych do czasopisma. Widzę ten termin używany przez niektórych pisarzy, ale nie rozumiem, jakie rozróżnienie starają się wprowadzić. Czy NHSTP jest czymś innym niż „test hipotezy” lub „test istotności”?

hypothesis-testing statistical-significance terminology

— Russ Lenth
źródło

Akronim, który jest nieco częściej używany, to NHST (bez P na końcu). Oba akronimy wydają się być pejoratywnymi terminami używanymi przez pisarzy, którzy go nienawidzą (w kontekście takich polemik). Możesz rzucić okiem na wyszukiwarkę Google dla NHST + null (1670 wyników, a tylko 145 dla NHSTP + null) - chodzi o problemy i kłopoty z tym. Innym powiązanym pejoratywnym terminem jest „rytuał zerowy”. Wszystko to oznacza, co myślisz, ale oznacza wyraźne oburzenie!

— ameba

Istnieją testy, które są teoretycznie całkiem różne od bardziej typowych NHST, takie jak testy równoważności - chociaż mechanicznie (ale nie zaskakuje) wykorzystują one ściśle powiązane ramy. Wyobrażam sobie jednak, że redaktor tego czasopisma prawdopodobnie również by się z nimi spierał.

— Glen_b

Powiązane (ale nie duplikaty): Jaka jest różnica między „testowaniem hipotezy” a „testem istotności”? Powinienem również zaznaczyć, że redaktorzy tego czasopisma wyraźnie nie próbują rozróżniać żadnego z nich! Zakazują wszelkiego rodzaju hipotez / znaczenia / jakichkolwiek testów, czy to Fishera, Neymana-Pearsona, czy hybrydy. Rozróżnienia dokonano jedynie w kontekście świętej wojny Fishera vs. Neymana-Pearsona (kontra hybryda), na czym nie polegał ten konkretny zakaz czasopisma.

— ameba

Więc, @Livid, mówisz, że „NHST” odnosi się do sposobu, w jaki testy statystyczne są zwykle stosowane w praktyce, w odróżnieniu od paradygmatów Fishera i NP? Myślę, że jeśli to z kolei oznacza rutynowe i bezmyślne obracanie korbą, to zgodziłbym się, że to pejoratywny termin.

— Russ Lenth

@rvl Oto artykuł (+ komentarz), o którym myślałem wcześniej: Precis o znaczeniu statystycznym: Uzasadnienie, ważność i użyteczność. Siu L. Chow. NAUKI BEHAWIORALNE I MÓZGOWE (1998) 21, 169–239

— Livid

Kontekst: zgoda w kwestii jest to jeden z Basic i Psychologii Stosowanej Społecznej , czasopisma ze współczynnikiem 2.015 uderzenia 1.168, czyli nie bardzo quotable.

Re: Pytanie OP , tj. Czy NHSTP jest czymś innym niż „test hipotezy” lub „test istotności”? Obowiązujące oświadczenia redakcyjne to

1) "...the null hypothesis significance testing procedure (NHSTP)  is invalid..." [Sic, with alpha = 0.05]
2) "...authors will have to remove all vestiges of the NHSTP (p-values, t-values, F-values, statements about ‘‘significant’’ differences or lack thereof, and so on)."
3) "...confidence intervals [Sic, 95%] also are banned from BASP."
4) "...Bayesian procedures are neither required nor banned from BASP." [Sic, depends on which ones, they are either banned or not.]
5) "Are any inferential statistical procedures required?...No..."

Motywacja oferowana w tym celu jest częściowo „… pasek jest zbyt łatwy do przejścia i czasami służy jako wymówka dla badań o niższej jakości. Mamy nadzieję i przewidujemy, że zakaz NHSTP wpłynie na poprawę jakości przedłożonych manuskryptów, uwalniając autorów od zdumionej struktury myślenia NHSTP, eliminując w ten sposób ważną przeszkodę dla twórczego myślenia ”. $p<.05$

Odpowiedź na OP: Redaktorzy prawdopodobnie twierdzą, że test istotności jest często niewłaściwym testem hipotezy. Na przykład twierdzą, że „... propozycje bayesowskie, które przynajmniej w pewnym stopniu obchodzą założenie Laplaciana [Sic, nic nie wiem a priori ] ... [takie, że] mogą istnieć nawet przypadki, w których istnieją mocne podstawy, by zakładać, że liczby naprawdę tam są ... ”To częściowo odnosi się do argumentu Fishera przeciwko Neymanowi i Pearsonowi, jak wskazano powyżej przez @Livid i dla którego artykuł redakcyjny byłby po stronie Fishera.

Dyskusja: Mocno wierzę w pokorę intelektualną jako podstawową i niezbędną zasadę metody naukowej. Jeśli ja, jako badacz, nie będę mógł przejść od wstępnego założenia, w którym cała wcześniejsza teoria jest niewiarygodna, stracę całą swoją zdolność do badania danych w sposób kreatywny i otwarty. Przesłanka, że wszelkie przetwarzanie numeryczne musi być absolutną prawdą, jest wysublimowanym przedstawieniem kupidyna. Jedyną prawdą są dane, i pokornie sparafrazuję Boxastwierdzając, że wszystkie modele są fałszywe, zwłaszcza i z pewnością te, które zakładają, że jakakolwiek prawda wynika z wszystkiego, co nie jest identyczne z danymi. Nie oznacza to, że muszę wybierać między Fisherem a Neymanem / Pearsonem, raczej że mocno wierzę, że żadna z przesłanek nie jest rozpatrywana sama, ale raczej badam wszystko w sposób wyczerpujący, dopóki moje hipotezy nie zostaną poparte i / lub odrzucone dla spójności samego zespołu. Kryterium może być stosowane wyłącznie jako spójność, ponieważ żadna analiza nie może ujawnić absolutnej prawdy.

Mój sposób robienia rzeczy nie jest dla wszystkich. Wielu woli planować testy w sztywnym, kontrolowanym projekcie eksperymentu, który nazwałbym „odgórnym”. Jednak kontrolowane eksperymenty są nieefektywne w przypadku eksploracji danych, rozpoznawania wzorców i generowania hipotez. Są przydatne do testowania wąskich pytań, i wtedy mogą pojawić się kontrowersje dotyczące NHSTP. Bez popartych dowodami, np. Całej struktury samowystarczalności, na której można polegać, każdy test jest otwarty na krytykę. Można to uznać za odwrotną Bonferroni; jeżeli wiele testów prowadzi do nieuchronnie samozgodnego zespołu, szansa na wystąpienie zespołu przez przypadek jest zmniejszona. W planowaniu eksperymentów z psychologii nonsens o nieużywaniu $p<0.05$ wynika z tego, że nie testowałem również wszystkich implikacji jakiegokolwiek konkretnego wyniku testu, a jeśli nie można tolerować błędu typu I wynoszącego ponieważ projekt eksperymentalny jest tak sztywny, ograniczony i wąski, to należy zastosować . Jednak zakazanie określonej metody statystycznej, ponieważ jest ona używana bezmyślnie, a ta bezmyślna praca staje się ważna, gdy recenzowane, oznacza jedynie, że redaktorzy nie identyfikują pracy niskiej jakości przed wyrażeniem zgody na jej przegląd i nie zwracają się do wykwalifikowanych recenzentów. Z pewnością nie można ustalić rozsądnego przekonania opartego na pojedynczych poszlakach. Zbiór poszlak dowodowych prowadzi raczej do uzasadnionego przekonania. Wyeliminowanie całej kategorii dowodów, ponieważ są one poszlakowe $0.05$ $0.001$ nie poprawi zawartości czasopisma.

— Carl
źródło

„... jako podstawowy i niezbędny najemca metody naukowej ...” - Oczekuję, że masz na myśli raczej dogmat niż najemcę .

— Glen_b

@Glen_b Je tiens à vous remercier . Powinienem był wiedzieć lepiej, ale oczekuję, że i tak wszystko jest źle. Ergo , reszta, jakieś myśli?

— Carl