Ziliak (2011) sprzeciwia się stosowaniu wartości p i wymienia niektóre alternatywy; czym oni są?


25

W niedawnym artykule na temat wad polegania na wartości p do wnioskowania statystycznego, zatytułowanym „Matrixx przeciwko Siracusano i Student przeciwko Fisher, znaczenie statystyczne w próbie” (DOI: 10.1111 / j.1740-9713.2011.00511.x), Stephen T. Ziliak sprzeciwia się zastosowaniu wartości p. W końcowych akapitach mówi:

Dane to jedna rzecz, którą już wiemy i na pewno. To, co tak naprawdę chcemy wiedzieć, to coś zupełnie innego: prawdopodobieństwo, że hipoteza jest prawdziwa (lub przynajmniej praktycznie użyteczna), biorąc pod uwagę nasze dane. Chcemy poznać prawdopodobieństwo, że oba leki są różne i o ile, biorąc pod uwagę dostępne dowody. Test istotności - oparty na błędności transponowanego warunku, pułapce, w którą wpadł Fisher - nie ma i nie może nam powiedzieć tego prawdopodobieństwa. Funkcja mocy, funkcja oczekiwanej straty i wiele innych metod teoretycznych i bayesowskich pochodzących od Studenta i Jeffreysa, obecnie szeroko dostępnych i darmowych on-line.

Jaka jest funkcja władzy, funkcja oczekiwanej straty i „inne metody teoretyczne i bayesowskie”? Czy te metody są powszechnie stosowane? Czy są dostępne w R? Jak wdrażane są te nowe sugerowane metody? Jak na przykład użyłbym tych metod do przetestowania mojej hipotezy w zbiorze danych, w przeciwnym razie zastosowałbym konwencjonalne testy t dla dwóch próbek i wartości p?


Istnieje wiele artykułów argumentujących przeciwko stosowaniu samych wartości , ale tak naprawdę zależy to od kontekstu, IMO. Czy możesz dodać więcej informacji o tym, co Cię interesuje (por. Ostatnie zdanie)? p
chl

2
Nie mam dostępu do tego artykułu, ale ten argument wskazuje na dość błędne rozumienie tego, co się dzieje. Pomimo błędnego zrozumienia wniosek, że inne statystyki są warte rozważenia, jest uzasadniony. Funkcja oczekiwanej straty jest po prostu oszacowaniem oczekiwanej wartości funkcji straty (np. Błąd kwadratu, logistyka itp.).
Iterator

Z powodu opublikowanego ostatnio podobnego wątku zadałem pytanie dotyczące tego wątku w Meta CV
Silverfish

Odpowiedzi:


17

To brzmi jak kolejny ostry papier zdezorientowanej osoby. Fisher nie wpadł w taką pułapkę, choć wielu studentów statystyki tak.

Testowanie hipotez jest problemem teoretycznym. Ogólnie rzecz biorąc, kończy się testem z określonym progiem między dwiema decyzjami (hipoteza prawdziwa lub hipoteza fałszywa). Jeśli masz hipotezę, która odpowiada jednemu punktowi, np. , możesz obliczyć prawdopodobieństwo danych wynikające z tego, że jest to prawda. Ale co robisz, jeśli nie jest to pojedynczy punkt? Otrzymujesz funkcję θ . Hipoteza θ 0 jest taka hipoteza, a otrzymasz taką funkcję prawdopodobieństwa produkcji przy danym obserwowanych danych, że to prawda. Ta funkcja jest funkcją mocy. To bardzo klasyczne. Fisher wiedział o tym wszystko.θ=0θθ0

Oczekiwana strata jest częścią podstawowego mechanizmu teorii decyzji. Masz różne stany natury i wynikające z nich różne możliwe dane oraz niektóre możliwe decyzje, które możesz podjąć, i chcesz znaleźć dobrą funkcję od danych do decyzji. Jak definiujesz dobro? Biorąc pod uwagę szczególny stan natury leżący u podstaw uzyskanych danych oraz decyzję podjętą w ramach tej procedury, jaka jest oczekiwana strata? Jest to najprościej rozumiane w przypadku problemów biznesowych (jeśli robię to na podstawie sprzedaży, którą zaobserwowałem w ciągu ostatnich trzech kwartałów, jaka jest oczekiwana strata pieniężna?).

Procedury bayesowskie są podzbiorem procedur teoretycznych decyzji. Oczekiwana strata jest niewystarczająca, aby określić wyjątkowo najlepsze procedury we wszystkich przypadkach oprócz trywialnych. Jeśli jedna procedura jest lepsza od drugiej w obu stanach A i B, oczywiście wolisz ją, ale jeśli jedna jest lepsza w stanie A, a druga lepsza w stanie B, co wybierasz? Tutaj wkraczają pomysły pomocnicze, takie jak procedury Bayesa, minimalizacja i bezstronność.

ttαβpαp

Jestem również trochę zdezorientowany, dlaczego nazywa razem Studenta i Jeffreysa, biorąc pod uwagę, że Fisher był odpowiedzialny za szerokie rozpowszechnianie prac Studenta.

Zasadniczo ślepe stosowanie wartości p jest złym pomysłem i są one raczej subtelną koncepcją, ale to nie czyni ich bezużytecznymi. Czy powinniśmy sprzeciwić się ich niewłaściwemu wykorzystaniu przez badaczy o słabym pochodzeniu matematycznym? Oczywiście, ale pamiętajmy, jak to wyglądało, zanim Fisher próbował wydestylować coś dla człowieka w terenie.


5
+1 za faktyczne udzielenie odpowiedzi na pytanie oraz dodatkowe (ale wirtualne) +1 za zakwestionowanie cytatu, co jest prowokujące, ale problematyczne. Widzę, że jesteś tutaj niedawnym uczestnikiem, ale już udzieliłeś wielu odpowiedzi: wielkie dzięki i mile widziane (nieco z opóźnieniem) na naszej stronie!
whuber

Bardzo dziękuję za szczegółową odpowiedź. Pomaga krytycznie myśleć o alternatywnych strategiach. Zadałem to pytanie, ponieważ niektórzy koledzy użyli tego dokumentu, aby powiedzieć, że w ogóle nie powinniśmy patrzeć na wartości p, i zdałem sobie sprawę, że nie rozumiem, co te alternatywy naprawdę oznaczają. Dzięki za wyjaśnienie!
Ariel,

@ whuber Nie sądzę, że to w ogóle odpowiada na pytanie. OP pytał o alternatywy, które sugeruje Ziliak, a ta odpowiedź ich nie dotyczy. Na przykład krytyka znaczenia Ziliaka dotyczy tego, dlaczego ludzie używają znaczenia 5% lub 1%. Naprawdę nie ma solidnego powodu, a on był w stanie prześledzić te poziomy z powrotem do dokumentów Fishera. To tylko dowolna, wygodna liczba. W przeciwieństwie do „alternatywnych” podejść opartych na korzyściach finansowych, tj. Wartościach dolara.
Aksakal

1
@Aksakal Uważam, że ważny jest wkład w rozmowę poprzez powiązanie testowania hipotez z problemem teoretycznym i wyraźne powiązanie wartości p z oczekiwanym ryzykiem (w oparciu o funkcję straty 0-1).
whuber


5

Ez pakiet zawiera wskaźniki wiarogodności podczas korzystania z ezMixed()funkcji, aby zrobić modelowanie efektów mieszanych. Wskaźniki prawdopodobieństwa mają na celu ilościowe oszacowanie dowodów na zjawisko poprzez porównanie prawdopodobieństwa (biorąc pod uwagę zaobserwowane dane) dwóch modeli: modelu „ograniczonego”, który ogranicza wpływ zjawiska do zera, oraz modelu „nieograniczonego”, który pozwala na niezerowy wpływ zjawisko. Po skorygowaniu zaobserwowanych prawdopodobieństw zróżnicowania złożoności modeli (za pomocą Kryterium Informacyjnego Akaike, które jest asymptotycznie równoważne z walidacją krzyżową), stosunek kwantyfikuje dowody na to zjawisko.


4

Wszystkie te techniki są dostępne w R w tym samym sensie, że cała algebra jest dostępna w twoim ołówku. Nawet wartości p są dostępne przez wiele różnych funkcji w R, decydowanie, której funkcji użyć, aby uzyskać wartość p lub Bayesian a posterior, jest bardziej złożona niż wskaźnik do pojedynczej funkcji lub pakietu.

Gdy poznasz te techniki i zdecydujesz, na jakie pytanie rzeczywiście chcesz uzyskać odpowiedź, możesz zobaczyć (lub możemy zapewnić więcej pomocy), jak to zrobić za pomocą R (lub innych narzędzi). Samo powiedzenie, że chcesz zminimalizować swoją funkcję utraty lub uzyskać dystrybucję boczną, jest tak samo przydatne, jak odpowiadanie na „jedzenie”, gdy pyta cię, co chcesz zjeść na obiad.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.