Ziliak (2011) sprzeciwia się stosowaniu wartości p i wymienia niektóre alternatywy; czym oni są?

25

W niedawnym artykule na temat wad polegania na wartości p do wnioskowania statystycznego, zatytułowanym „Matrixx przeciwko Siracusano i Student przeciwko Fisher, znaczenie statystyczne w próbie” (DOI: 10.1111 / j.1740-9713.2011.00511.x), Stephen T. Ziliak sprzeciwia się zastosowaniu wartości p. W końcowych akapitach mówi:

Dane to jedna rzecz, którą już wiemy i na pewno. To, co tak naprawdę chcemy wiedzieć, to coś zupełnie innego: prawdopodobieństwo, że hipoteza jest prawdziwa (lub przynajmniej praktycznie użyteczna), biorąc pod uwagę nasze dane. Chcemy poznać prawdopodobieństwo, że oba leki są różne i o ile, biorąc pod uwagę dostępne dowody. Test istotności - oparty na błędności transponowanego warunku, pułapce, w którą wpadł Fisher - nie ma i nie może nam powiedzieć tego prawdopodobieństwa. Funkcja mocy, funkcja oczekiwanej straty i wiele innych metod teoretycznych i bayesowskich pochodzących od Studenta i Jeffreysa, obecnie szeroko dostępnych i darmowych on-line.

Jaka jest funkcja władzy, funkcja oczekiwanej straty i „inne metody teoretyczne i bayesowskie”? Czy te metody są powszechnie stosowane? Czy są dostępne w R? Jak wdrażane są te nowe sugerowane metody? Jak na przykład użyłbym tych metod do przetestowania mojej hipotezy w zbiorze danych, w przeciwnym razie zastosowałbym konwencjonalne testy t dla dwóch próbek i wartości p?

— Ariel
źródło

Istnieje wiele artykułów argumentujących przeciwko stosowaniu samych wartości

, ale tak naprawdę zależy to od kontekstu, IMO. Czy możesz dodać więcej informacji o tym, co Cię interesuje (por. Ostatnie zdanie)?

p

$p$

— chl

2

Nie mam dostępu do tego artykułu, ale ten argument wskazuje na dość błędne rozumienie tego, co się dzieje. Pomimo błędnego zrozumienia wniosek, że inne statystyki są warte rozważenia, jest uzasadniony. Funkcja oczekiwanej straty jest po prostu oszacowaniem oczekiwanej wartości funkcji straty (np. Błąd kwadratu, logistyka itp.).

— Iterator

Z powodu opublikowanego ostatnio podobnego wątku zadałem pytanie dotyczące tego wątku w Meta CV

— Silverfish

17

To brzmi jak kolejny ostry papier zdezorientowanej osoby. Fisher nie wpadł w taką pułapkę, choć wielu studentów statystyki tak.

Testowanie hipotez jest problemem teoretycznym. Ogólnie rzecz biorąc, kończy się testem z określonym progiem między dwiema decyzjami (hipoteza prawdziwa lub hipoteza fałszywa). Jeśli masz hipotezę, która odpowiada jednemu punktowi, np. , możesz obliczyć prawdopodobieństwo danych wynikające z tego, że jest to prawda. Ale co robisz, jeśli nie jest to pojedynczy punkt? Otrzymujesz funkcję . Hipoteza jest taka hipoteza, a otrzymasz taką funkcję prawdopodobieństwa produkcji przy danym obserwowanych danych, że to prawda. Ta funkcja jest funkcją mocy. To bardzo klasyczne. Fisher wiedział o tym wszystko. $\theta=0$ $\theta$ $\theta\not= 0$

Oczekiwana strata jest częścią podstawowego mechanizmu teorii decyzji. Masz różne stany natury i wynikające z nich różne możliwe dane oraz niektóre możliwe decyzje, które możesz podjąć, i chcesz znaleźć dobrą funkcję od danych do decyzji. Jak definiujesz dobro? Biorąc pod uwagę szczególny stan natury leżący u podstaw uzyskanych danych oraz decyzję podjętą w ramach tej procedury, jaka jest oczekiwana strata? Jest to najprościej rozumiane w przypadku problemów biznesowych (jeśli robię to na podstawie sprzedaży, którą zaobserwowałem w ciągu ostatnich trzech kwartałów, jaka jest oczekiwana strata pieniężna?).

Procedury bayesowskie są podzbiorem procedur teoretycznych decyzji. Oczekiwana strata jest niewystarczająca, aby określić wyjątkowo najlepsze procedury we wszystkich przypadkach oprócz trywialnych. Jeśli jedna procedura jest lepsza od drugiej w obu stanach A i B, oczywiście wolisz ją, ale jeśli jedna jest lepsza w stanie A, a druga lepsza w stanie B, co wybierasz? Tutaj wkraczają pomysły pomocnicze, takie jak procedury Bayesa, minimalizacja i bezstronność.

$t$ $t$ $\alpha$ $\beta$ $p$ $\alpha$ $p$

Jestem również trochę zdezorientowany, dlaczego nazywa razem Studenta i Jeffreysa, biorąc pod uwagę, że Fisher był odpowiedzialny za szerokie rozpowszechnianie prac Studenta.

Zasadniczo ślepe stosowanie wartości p jest złym pomysłem i są one raczej subtelną koncepcją, ale to nie czyni ich bezużytecznymi. Czy powinniśmy sprzeciwić się ich niewłaściwemu wykorzystaniu przez badaczy o słabym pochodzeniu matematycznym? Oczywiście, ale pamiętajmy, jak to wyglądało, zanim Fisher próbował wydestylować coś dla człowieka w terenie.

— użytkownik873
źródło

5

+1 za faktyczne udzielenie odpowiedzi na pytanie oraz dodatkowe (ale wirtualne) +1 za zakwestionowanie cytatu, co jest prowokujące, ale problematyczne. Widzę, że jesteś tutaj niedawnym uczestnikiem, ale już udzieliłeś wielu odpowiedzi: wielkie dzięki i mile widziane (nieco z opóźnieniem) na naszej stronie!

— whuber

Bardzo dziękuję za szczegółową odpowiedź. Pomaga krytycznie myśleć o alternatywnych strategiach. Zadałem to pytanie, ponieważ niektórzy koledzy użyli tego dokumentu, aby powiedzieć, że w ogóle nie powinniśmy patrzeć na wartości p, i zdałem sobie sprawę, że nie rozumiem, co te alternatywy naprawdę oznaczają. Dzięki za wyjaśnienie!

— Ariel,

@ whuber Nie sądzę, że to w ogóle odpowiada na pytanie. OP pytał o alternatywy, które sugeruje Ziliak, a ta odpowiedź ich nie dotyczy. Na przykład krytyka znaczenia Ziliaka dotyczy tego, dlaczego ludzie używają znaczenia 5% lub 1%. Naprawdę nie ma solidnego powodu, a on był w stanie prześledzić te poziomy z powrotem do dokumentów Fishera. To tylko dowolna, wygodna liczba. W przeciwieństwie do „alternatywnych” podejść opartych na korzyściach finansowych, tj. Wartościach dolara.

— Aksakal

1

@Aksakal Uważam, że ważny jest wkład w rozmowę poprzez powiązanie testowania hipotez z problemem teoretycznym i wyraźne powiązanie wartości p z oczekiwanym ryzykiem (w oparciu o funkcję straty 0-1).

— whuber

6

Zalecam skupienie się na takich kwestiach, jak przedziały ufności i sprawdzanie modelu. Andrew Gelman wykonał w tym świetną robotę. Polecam jego podręczniki, ale także sprawdzam rzeczy, które umieścił w Internecie, np. Http://andrewgelman.com/2011/06/the_holes_in_my/

— Michael Bishop
źródło

5

Ez pakiet zawiera wskaźniki wiarogodności podczas korzystania z ezMixed()funkcji, aby zrobić modelowanie efektów mieszanych. Wskaźniki prawdopodobieństwa mają na celu ilościowe oszacowanie dowodów na zjawisko poprzez porównanie prawdopodobieństwa (biorąc pod uwagę zaobserwowane dane) dwóch modeli: modelu „ograniczonego”, który ogranicza wpływ zjawiska do zera, oraz modelu „nieograniczonego”, który pozwala na niezerowy wpływ zjawisko. Po skorygowaniu zaobserwowanych prawdopodobieństw zróżnicowania złożoności modeli (za pomocą Kryterium Informacyjnego Akaike, które jest asymptotycznie równoważne z walidacją krzyżową), stosunek kwantyfikuje dowody na to zjawisko.

— Mike Lawrence
źródło

4

Wszystkie te techniki są dostępne w R w tym samym sensie, że cała algebra jest dostępna w twoim ołówku. Nawet wartości p są dostępne przez wiele różnych funkcji w R, decydowanie, której funkcji użyć, aby uzyskać wartość p lub Bayesian a posterior, jest bardziej złożona niż wskaźnik do pojedynczej funkcji lub pakietu.

Gdy poznasz te techniki i zdecydujesz, na jakie pytanie rzeczywiście chcesz uzyskać odpowiedź, możesz zobaczyć (lub możemy zapewnić więcej pomocy), jak to zrobić za pomocą R (lub innych narzędzi). Samo powiedzenie, że chcesz zminimalizować swoją funkcję utraty lub uzyskać dystrybucję boczną, jest tak samo przydatne, jak odpowiadanie na „jedzenie”, gdy pyta cię, co chcesz zjeść na obiad.

— Greg Snow
źródło