Czy to jest rozwiązanie problemu wartości p?

W lutym 2016 r. Amerykańskie stowarzyszenie statystyczne opublikowało formalne oświadczenie w sprawie istotności statystycznej i wartości p. Nasz wątek na ten temat obszernie omawia te problemy. Jednak do tej pory nie pojawił się żaden organ oferujący powszechnie uznaną skuteczną alternatywę. Amerykańskie Towarzystwo Statystyczne (ASS) opublikowało swoją odpowiedź, wartości p: Co dalej?

„Wartość p nie jest zbyt dobra”.

Uważamy, że ASA nie posunęła się wystarczająco daleko. Czas przyznać, że era wartości p dobiegła końca. Statystycy z powodzeniem wykorzystali je do oszukania studentów, oszukiwania naukowców i oszukiwania redaktorów na całym świecie, ale świat zaczyna przejrzeć tę podstęp. Musimy porzucić tę próbę statystycznych z początku XX wieku, aby kontrolować podejmowanie decyzji. Musimy wrócić do tego, co faktycznie działa.

Oficjalna propozycja ASS jest następująca:

Zamiast wartości p ASS zaleca STOP (procedura SeaT-Of-Pants). Ta uświęcona i przetestowana metoda była stosowana przez starożytnych Greków, ludzi renesansu i wszystkich naukowców, dopóki nie pojawił się Ronald Fisher i zrujnował wszystko. STOP jest prosty, bezpośredni, oparty na danych i autorytatywny. Aby to zrobić, postać autorytetowa (starszy mężczyzna, z preferencji) dokonuje przeglądu danych i decyduje, czy zgadzają się z jego opinią. Kiedy decyduje, że tak, wynik jest „znaczący”. W przeciwnym razie tak nie jest i wszyscy muszą zapomnieć o całości.

Zasady

Odpowiedź dotyczy każdej z sześciu zasad ASA.

STOP może wskazywać, jak niekompatybilne są dane z określonym modelem statystycznym.

Podoba nam się to zdanie, ponieważ jest to tak fantazyjny sposób powiedzenia, że STOP odpowie na każde pytanie tak lub nie. W przeciwieństwie do wartości p lub innych procedur statystycznych nie pozostawia wątpliwości. To idealna odpowiedź dla tych, którzy mówią: „nie potrzebujemy żadnej śmierdzącej zerowej hipotezy! Co to w ogóle za *?! @? Nikt nigdy nie mógł zrozumieć, co to ma być.
STOP nie mierzy prawdopodobieństwa, że hipoteza jest prawdziwa: w rzeczywistości decyduje, czy to prawda, czy nie.

Wszyscy są zdezorientowani prawdopodobieństwami. Poprzez wyeliminowanie prawdopodobieństwa ze zdjęcia, STOP eliminuje potrzebę wieloletnich studiów licencjackich i magisterskich. Teraz każdy (wystarczająco stary i męski) może przeprowadzić analizę statystyczną bez bólu i tortur związanych ze słuchaniem choćby jednego wykładu statystycznego lub uruchamianiem tajemnego oprogramowania, które wyrzuca niezrozumiały wynik.
Wnioski naukowe oraz decyzje biznesowe lub polityczne mogą opierać się na zdrowym rozsądku i prawdziwych danych dotyczących władzy.

W każdym razie ważne decyzje zawsze były podejmowane przez władze, więc po prostu przyznajmy się i odetnijmy pośredników. Użycie STOP uwolni statystyk od robienia tego, do czego są najlepiej przystosowani: używania liczb w celu zaciemnienia prawdy i uświęcenia preferencji rządzących.
Właściwe wnioskowanie wymaga pełnego raportowania i przejrzystości.

STOP to najbardziej przejrzysta i oczywista procedura statystyczna, jaką kiedykolwiek wymyślono: patrzysz na dane i decydujesz. Eliminuje to wszystkie mylące testy Z, testy T, testy chi-kwadrat i procedury zupy alfabetycznej (ANOVA! GLM! MLE!) Używane przez ludzi do ukrycia faktu, że nie mają pojęcia, co oznaczają dane.
STOP mierzy znaczenie wyniku.

Jest to oczywiste: jeśli osoba sprawująca władzę stosuje STOP, wynik musi być ważny.
Sam STOP zapewnia dobrą miarę dowodów dotyczących modelu lub hipotezy.

Nie chcielibyśmy kwestionować władzy, prawda? Badacze i decydenci zauważą, że STOP zapewnia wszystkie informacje, które muszą znać. Z tych powodów analiza danych może zakończyć się STOP; nie ma potrzeby stosowania alternatywnych metod, takich jak wartości p, uczenie maszynowe lub astrologia.

Inne podejścia

Niektórzy statystycy preferują tak zwane „bayesowskie” metody, w których niejasne twierdzenie pośmiertnie opublikowane przez XVIII-wiecznego duchownego stosuje się bezmyślnie, aby rozwiązać każdy problem. Najbardziej znani zwolennicy swobodnie przyznają, że metody te są „subiektywne”. Jeśli zamierzamy zastosować metody subiektywne, to oczywiście im bardziej autorytatywny i kompetentny jest osoba podejmująca decyzje, tym lepszy będzie wynik. STOP staje się w ten sposób logicznym ograniczeniem wszystkich metod Bayesa. Po co męczyć się nad tymi okropnymi obliczeniami i wiązać tyle czasu komputerowego, skoro możesz po prostu pokazać dane odpowiedzialnemu facetowi i zapytać go, jakie jest jego zdanie? Koniec opowieści.

Niedawno powstała inna społeczność, aby zakwestionować kapłaństwo statystyków. Nazywają siebie „uczącymi się maszyn” i „naukowcami danych”, ale tak naprawdę to tylko hakerzy szukający wyższego statusu. To oficjalne stanowisko ASS, że ci faceci powinni założyć własną profesjonalną organizację, jeśli chcą, aby ludzie traktowali ich poważnie.

Pytanie

Czy jest to odpowiedź na problemy zidentyfikowane przez ASA za pomocą wartości p i testowania hipotez zerowych? Czy naprawdę może zjednoczyć paradygmaty bayesowskie i częste (jak domyślnie twierdzono w odpowiedzi)?

hypothesis-testing statistical-significance p-value

— whuber
źródło

„Donald Trump dla najwyższego sędziego STOP ASS: znów spraw, by statystyki były świetne!”

— Alex R.

Najwyraźniej STOP jest procedurą nieoptymalną. Dziwię się, że udało się temu uniknąć tak cenionej organizacji uczonych, jak ASS. To znaczy, po co marnować czas patrząc na dane w ogóle ? Po prostu daj odpowiedź tak / nie. Ta metodologia jest już w użyciu z dużym skutkiem. Studia przypadków są liczne, szczególnie w Stanach Zjednoczonych w latach dzielnych przez 4.

— kardynał

Myślę, że firmy mogą również ogromnie skorzystać z zastosowania tych metod, ponieważ nie będą już musiały ponosić wysokich kosztów zatrudniania ludzi do analizy swoich danych.

— dsaxton

@henry Jakby tag [april-1] nam tego nie powiedział?

— Glen_b

@Henry Poważnie? Czy możesz nam pokazać jakąkolwiek fałszywą organizację, która uzyska ponad ćwierć miliona wyświetleń, gdy nazwa Google zostanie nazwana?

— whuber

Odpowiedzi:

Opowiadałem się za moim nowym podejściem do statystycznego podejmowania decyzji o nazwie RADD: R oll A D amn D tj. Dotyczy to również wszystkich kluczowych punktów.

1) RADD może wskazywać, jak kompatybilne są dane z określonym modelem statystycznym.

Jeśli rzucisz wyższą liczbę, oczywiste jest, że dowody przemawiają na korzyść twojego modelu! Dodatkową korzyścią jest to, że jeśli pragniemy jeszcze większej pewności siebie, możemy rzucić kością z większą liczbą stron. Możesz nawet znaleźć 100 jednostronnych kości, jeśli przeszukujesz wystarczająco dużo!

2) RADD może zdecydować, czy hipoteza jest prawdziwa, czy nie.

Musisz tylko rzucić 2-stronną kostką, tj. Rzucić monetą.

3) RADD może być wykorzystywany do podejmowania decyzji biznesowych lub polis

Zbierz grupę polityków w pokoju i pozwól im rzucić kostką! Najwyższe wygrane!

4) RADD jest przezroczysty.

Wynik można zapisać, a samą matrycę można zachować do dalszych badań *

5) RADD mierzy znaczenie wyniku.

Oczywiście, wzrost wartości oznacza bardzo ważne wydarzenie.

6) RADD stanowi dobry dowód.

Czy nie powiedzieliśmy, że wyższe rzuty są lepsze?

Więc nie, STOP nie jest odpowiedzią. Odpowiedź brzmi RADD.

— Matthew Drury
źródło

Nie należy zapominać, że może zapewnić kontrolę błędów typu I (na dowolnym pożądanym poziomie z wystarczającą ilością kostek), np. Odrzucając hipotezę zerową tylko wtedy, gdy pojawi się jedna z 5 stron o największej liczbie kostek 100-stronnych w celu osiągnięcia 5% poziom błędu typu I.

— Björn

Zapomniałeś wspomnieć o fajnych wielościanach platońskich i niektórych fajnych nieplatonicznych wielościanach .

— Alexis

Muszę powiedzieć z mojego doświadczenia, że w rzeczywistości biznesowej STOP jest domyślnym kryterium decyzyjnym, preferowanym od $p$ -wartości i inne metody częste lub bayesowskie. Z perspektywy biznesowej STOP zapewnia proste i ostateczne odpowiedzi, co czyni go bardziej wiarygodnym niż niepewne metody „probabilistyczne”. Co więcej, w zdecydowanej większości przypadków łatwiej jest je wdrożyć i łatwiej dostosować do zmieniającej się rzeczywistości niż inne metody. Decyzje Tak / Nie są bardziej przekonujące dla kierownictwa średniego i wyższego szczebla. „Raporty STOP” w większości przypadków są krótsze i łatwiejsze do odczytania niż raporty oparte na danych. Co więcej, przyjęcie tej metody umożliwia pracodawcy obniżenie kosztów na naukowcach danych i licencjach SAS. Powiedziałbym, że jedynym problemem związanym z STOP jest to, że trudniej jest zrobić prezentację PowerPoint prezentującą wyniki STOP, ale jest to dziedzina dynamicznie rozwijająca się, więc w przyszłości można zaproponować lepsze metody wizualizacji.

— Tim
źródło

Po zapoznaniu się ze slajdami PowerPoint z wnioskami jest już za późno, aby je zmienić, więc są dwie możliwości: dopasuj analizę do wniosku lub nie zawracaj sobie głowy analizą.

— Mark L. Stone,

@ MarkL.Stone Pewnie! Osobiście podoba mi się pomysł tworzenia wykresów do prezentacji przed obejrzeniem danych, pomysł ten jest zakorzeniony w myśleniu bayesowskim i nazywam je wykresami a priori :) Myślę, że to podejście pojawiło się po raz pierwszy w druku tutaj: dilbert.com/strip/ 2008-05-08

— Tim

To doskonałe uzupełnienie debaty o wartości p, ciekawe, ale również nieco nieaktualne, moim zdaniem, przypomina mi wyjątkowy artykuł opublikowany kilka lat temu w świątecznym wydaniu British Medical Journal (BMJ), w którym każde Boże Narodzenie publikuje prawdziwe, ale zabawne badania artykuły W szczególności praca Isaaca i Fitzgeralda uwypukliła siedem kluczowych alternatyw dla medycyny opartej na dowodach (tj. Praktyka medyczna oparta na faktycznych dowodach klinicznych i statystycznych):

Medycyna oparta na eminencji
Medycyna oparta na Vehemence
Medycyna na bazie elokwencji
Medycyna oparta na opatrzności
Medycyna oparta na różnicach
Medycyna oparta na nerwowości
Medycyna oparta na zaufaniu

Co najciekawsze, należy spojrzeć na kolumny podkreślające urządzenia pomiarowe i jednostki miary dla powyższych pozycji (np. Audiometr i decybele dla medycyny opartej na gwałtowności!).

— rev Giuseppe Biondi-Zoccai
źródło

+1. Dziękuję za wspaniały wkład, idealnie w duchu pytania. (1) Wyjaśnij: czy jest to debata o wartości p, którą uważasz za „przestarzałą”, czy tylko to pytanie? (2) Czy wiesz, gdzie znaleźć odniesienie (6) „J Wynagrodzenie wykładnicze”? Jestem pewien, że miałby wielu zapalonych czytelników, gdyby byli lepiej znani.

— whuber

(1) Twój wkład jest „certyfikowany na świeżo” (cytując rottentomatoes.com). I odwrotnie, uważam, że nacisk na ograniczenia wartości p jest nieco nieaktualny. W erze uczenia maszynowego, dużych zbiorów danych i słabej wiedzy naukowej wśród społeczeństwa stanowisko ASA może wydawać się nieco masochistyczne. (2) Myślę, że ten artykuł znajdziesz w tym samym czasopiśmie, w którym opublikowano randomizowaną wersję próbną zalecaną w tym innym świątecznym artykule BMJ: bmj.com/content/327/7429/1459 .

— Joe_74,

Zawsze zapominam, czy to medycyna oparta na zaufaniu korzysta z wnioskowania opartego na Dunningu-Krugerze?

— Alexis,