Ten artykuł „ Kursy, ciągle aktualizowane” z NY Times przykuł moją uwagę. Krótko mówiąc, stwierdza to
[Statystyka bayesowska] okazuje się szczególnie przydatna w podejściu do skomplikowanych problemów, w tym wyszukiwań takich jak ta przeprowadzona przez Straż Przybrzeżną w 2013 r. W celu odnalezienia zaginionego rybaka, Johna Aldridge'a (choć jak dotąd nie w polowaniu na Malaysia Airlines Flight 370). ......, statystyki bayesowskie przewijają się przez wszystko, od fizyki po badania nad rakiem, ekologia i psychologia ...
W artykule pojawiła się także krytyka wartości p częstego, na przykład:
Wyniki są zwykle uważane za „statystycznie istotne”, jeśli wartość p jest mniejsza niż 5 procent. Ale w tej tradycji istnieje niebezpieczeństwo, powiedział Andrew Gelman, profesor statystyki w Kolumbii. Nawet jeśli naukowcy zawsze poprawnie wykonali obliczenia - a nie robią tego, argumentuje - zaakceptowanie wszystkiego z wartością p wynoszącą 5 procent oznacza, że jeden na 20 „statystycznie znaczących” wyników jest niczym innym jak szumem losowym.
Poza powyższym być może najbardziej znanym artykułem krytykującym wartość p jest ta - „Metoda naukowa: błędy statystyczne” Reginy Nuzzo z Nature , w której omówiono wiele zagadnień naukowych związanych z podejściem wartości p, takich jak problemy z odtwarzalnością, Hackowanie wartości p itp.
Wartości P, „złoty standard” ważności statystycznej, nie są tak wiarygodne, jak przypuszcza wielu naukowców. ...... Być może najgorszym błędem jest rodzaj samooszukiwania się, dla którego psycholog Uri Simonsohn z University of Pennsylvania i jego współpracownicy spopularyzowali pojęcie hakowania P. jest również znany jako pogłębianie danych, węszenie, łowienie ryb, pogoń za znaczeniem i podwójne zanurzenie. „Hakowanie P”, mówi Simonsohn, „próbuje wielu rzeczy, dopóki nie uzyskasz pożądanego rezultatu” - nawet nieświadomie. ...... „To odkrycie wydaje się być uzyskane dzięki hakowaniu p, autorzy porzucili jeden z warunków, tak aby ogólna wartość p była mniejsza niż 0,05” i „Ona jest hakerem p, zawsze monitoruje dane podczas ich gromadzenia. ”
Inną rzeczą jest to ciekawa fabuła, jak następuje od tutaj , z komentarzem na temat działki:
Bez względu na to, jak niewielki może być Twój efekt, zawsze możesz wykonać ciężką pracę polegającą na gromadzeniu danych, aby przekroczyć próg p <0,05. Dopóki efekt, który badasz, nie istnieje, wartości p mierzą tylko wysiłek włożony w gromadzenie danych.
W związku z powyższym moje pytania są następujące:
Co dokładnie oznacza argument Andrew Gelmana w drugim cytacie blokowym? Dlaczego zinterpretował 5-procentową wartość p jako „zauważa jeden na 20 statystycznie istotnych wyników, ale losowy szum”? Nie jestem przekonany, ponieważ dla mnie wartość p służy do wnioskowania na podstawie jednego badania. Jego punkt wydaje się związany z wielokrotnymi testami.
Aktualizacja: Sprawdź blog Andrew Gelmana na ten temat: Nie, nie powiedziałem tego! (Kredyty dla @Scortchi, @whuber).
Biorąc pod uwagę krytykę wartości p, a także biorąc pod uwagę, że istnieje wiele kryteriów informacyjnych, takich jak AIC, BIC, do oceny istotności modelu (stąd zmiennych), czy nie powinniśmy używać wartości p do wyboru zmiennych w wszystko oprócz tych kryteriów wyboru modelu?
- Czy istnieją jakieś praktyczne wskazówki dotyczące wykorzystania wartości p do analizy statystycznej, które mogłyby prowadzić do bardziej wiarygodnych wyników badań?
Czy ramy modelowania bayesowskiego byłyby lepszym sposobem realizacji, o czym opowiadają się niektórzy statystycy? W szczególności, czy podejście bayesowskie byłoby bardziej prawdopodobne w przypadku fałszywego znalezienia lub manipulowania problemami z danymi? Nie jestem tu również przekonany, ponieważ przeor jest bardzo subiektywny w podejściu bayesowskim. Czy są jakieś praktyczne i dobrze znane badania, które pokazują, że podejście bayesowskie jest lepsze niż wartość p częstego, czy przynajmniej w niektórych szczególnych przypadkach?
Aktualizacja: Byłbym szczególnie zainteresowany tym, czy zdarzają się przypadki, że podejście bayesowskie jest bardziej wiarygodne niż podejście p-wartości częstych. Przez „wiarygodny” rozumiem, że podejście bayesowskie ma mniejsze szanse na manipulowanie danymi w celu uzyskania pożądanych rezultatów. Jakieś sugestie?
Aktualizacja 6/9/2015
Właśnie zauważyłem wiadomość i pomyślałem, że dobrze byłoby umieścić ją tutaj do dyskusji.
Dziennik psychologii zakazuje wartości P.
Kontrowersyjny test statystyczny w końcu dobiegł końca, przynajmniej w jednym czasopiśmie. Na początku tego miesiąca redaktorzy Podstawowej i Stosowanej Psychologii Społecznej (BASP) ogłosili, że czasopismo nie będzie już publikować artykułów zawierających wartości P, ponieważ statystyki były zbyt często wykorzystywane do wspierania badań niższej jakości.
Wraz z niedawnym referatem „zmienna wartość P generuje nieodpowiedzialne wyniki” z natury , o wartości P.
Zaktualizuj 5/8/2016
W marcu Amerykańskie Stowarzyszenie Statystyczne (ASA) opublikowało oświadczenia dotyczące istotności statystycznej i wartości p: „… Oświadczenie ASA ma na celu ukierunkowanie badań na„ epokę p <0,05 ”.”
To oświadczenie zawiera 6 zasad odnoszących się do niewłaściwego wykorzystania wartości p:
- Wartości p mogą wskazywać, jak niezgodne są dane z określonym modelem statystycznym.
- Wartości p nie mierzą prawdopodobieństwa, że badana hipoteza jest prawdziwa, ani prawdopodobieństwa, że dane zostały wygenerowane wyłącznie przez przypadek.
- Wnioski naukowe oraz decyzje biznesowe lub polityczne nie powinny opierać się wyłącznie na tym, czy wartość p przekracza określony próg.
- Właściwe wnioskowanie wymaga pełnego raportowania i przejrzystości.
- Wartość p lub istotność statystyczna nie mierzy wielkości efektu ani ważności wyniku.
- Sama wartość p nie stanowi dobrego dowodu na temat modelu lub hipotezy.
Szczegóły: „Oświadczenie ASA w sprawie wartości p: kontekst, proces i cel” .