Opcjonalne reguły zatrzymywania, których nie ma w podręcznikach


16

Reguły zatrzymania wpływają na związek między wartościami P a wskaźnikami błędów związanymi z decyzjami. Niedawny artykuł Simmonsa i in. W 2011 r . Termin „ stopnie swobody badacza” opisuje zbiór zachowań, które uważają za odpowiedzialne za wiele raportów w literaturze psychologicznej, które okazały się nie do odtworzenia.

Spośród tych zachowań interesują mnie obecnie opcjonalne reguły zatrzymania lub niezadeklarowane analizy okresowe. Opisuję ich wpływ na poziom błędów wśród moich uczniów, ale wydaje się, że nie są one opisane w podręcznikach, których używają moi uczniowie (lub nie posługiwać się!). W głównej księgarni na moim uniwersytecie znajduje się czternaście podręczników statystycznych skierowanych do studentów na poziomie podstawowym w różnych dyscyplinach, takich jak biologia, biznes, inżynieria itp. Tylko jeden z tych tekstów zawierał element indeksu „testy sekwencyjne”, a żaden nie miał elementu indeksu „ reguła zatrzymania ”.

Czy istnieje podręcznik statystyki na poziomie wprowadzającym, który wyjaśnia kwestię opcjonalnych reguł zatrzymywania?

Simmons, JP, Nelson, LD i Simonsohn, U. (2011). Psychologia fałszywie dodatnia: nieujawniona elastyczność w gromadzeniu i analizie danych pozwala prezentować wszystko jako znaczące . Psychological Science, 22 (11), 1359–1366. doi: 10.1177 / 0956797611417632


1
Czy problem nie zniknie, jeśli porzucisz statystyki częstych i zastosujesz metody informatyczne lub bayesowskie? (Lub nawet samo uczenie maszynowe, w zależności od rozmiaru twojego zbioru danych) To nie jest nieporadne - niezgodny mashup Fishera i NP powoduje tylko problemy, nawet jeśli jest wykonany „poprawnie”. W przyszłości nie będzie już częstych.
thedude

1
Tak, problem zniknąłby, gdyby nie było zastosowania metod, które powinny być zgodne z zasadą częstotliwości. Jednak taka przyszłość może nie nadejść na tym świecie. Co to jest?
Michael Lew - przywraca Monikę

2
@Michael: Niemal bez wątpienia (tj. IT) oznacza „teoretykę informacji”.
kardynał

Na powiązany temat: errorstatistics.com/2013/04/06/…
Fr.

2
@thedude przy użyciu innej struktury teoretycznej wprowadza inne problemy . Problem polega na tym, że wszyscy traktują matematykę jako coś innego niż opis świata. Statystyki częstokroć to jeden bardzo przydatny sposób na opisanie świata, Bayesian to kolejny. Żadne z nich nie zapewni ci Wyroczni Prawdy .
Indolering

Odpowiedzi:


2

Nie możesz mieć reguły zatrzymywania bez pojęcia o twojej dystrybucji i wielkości efektu - czego nie znasz a priori.

Również tak, musimy skupić się na wielkości efektu - i nigdy nie uważano za poprawne uwzględnienie tylko wartości p, i na pewno nie powinniśmy pokazywać tabel lub wykresów, które pokazują wartości p lub wartości F, a nie wielkości efektu.

Występują problemy z tradycyjnym testowaniem wnioskowania hipotez statystycznych (co według Cohena jest warte jego akronimu, a Fisher i Pearson obróciliby się w grobach, gdyby zobaczyli wszystko, co dzieje się dziś pod ich gwałtownie przeciwstawionymi nazwami).

Aby wyznaczyć N, musisz już określić docelowe znaczenie i próg mocy, a także poczynić wiele założeń dotyczących rozkładu, a w szczególności musisz także określić wielkość efektu, który chcesz ustalić. Indolering ma rację, że powinien to być punkt wyjścia - jaki minimalny rozmiar efektu byłby opłacalny!

„Nowe statystyki” opowiadają się za pokazywaniem wielkości efektu (w stosownych przypadkach jako sparowanej różnicy), wraz z powiązanymi odchyleniami standardowymi lub wariancjami (ponieważ musimy zrozumieć rozkład) oraz odchyleniami standardowymi lub przedziałami ufności (ale ta ostatnia jest już zablokowanie wartości p i decyzja o tym, czy przewidujesz kierunek, czy zakład w jedną stronę). Ale ustalenie minimalnego efektu określonego znaku za pomocą naukowej prognozy, wyjaśnia to jasno - chociaż przednaukową wartością domyślną jest wykonywanie prób i błędów i po prostu szukanie różnic. Ale i tak przyjęliście założenia dotyczące normalności.

Innym podejściem jest stosowanie wykresów pudełkowych jako podejścia nieparametrycznego, ale konwencje dotyczące wąsów i wartości odstających są bardzo zróżnicowane, a nawet same powstają w założeniach dystrybucyjnych.

Problem zatrzymania rzeczywiście nie jest problemem indywidualnego ustawienia badacza lub braku ustawienia N, ale że mamy całą społeczność tysięcy naukowców, gdzie 1000 to znacznie więcej niż 1 / alfa dla tradycyjnego poziomu 0,05. Obecnie proponowana jest odpowiedź na dostarczenie statystyk podsumowujących (średnia, stddev, stderr - lub odpowiadające im „wersje nieparametryczne - mediana itp. Jak w przypadku wykresu pudełkowego) w celu ułatwienia metaanalizy i przedstawienia połączonych wyników ze wszystkich eksperymentów, niezależnie od tego, czy mają miejsce osiągnąć określony poziom alfa lub nie.

Ściśle związany jest problem wielokrotnego testowania, który jest równie trudny, a eksperymenty są utrzymywane zbyt uproszczone w imię zachowania mocy, podczas gdy proponowane są nadmiernie złożone metody analizy wyników.

Nie wydaje mi się, aby mógł istnieć rozdział w książce, który ostatecznie poradziłby sobie z tym, ponieważ wciąż nie mamy pojęcia, co robimy ...

W tej chwili najlepszym podejściem jest prawdopodobnie dalsze stosowanie tradycyjnych statystyk najbardziej odpowiednich do problemu, w połączeniu z wyświetlaniem statystyk podsumowujących - najważniejszy jest efekt i błąd standardowy, a N jest najważniejsze. Zastosowanie przedziałów ufności jest w zasadzie równoważne z odpowiednim testem T, ale umożliwia bardziej sensowne porównywanie nowych wyników z opublikowanymi, a także pozwala na etos zachęcający do odtwarzalności oraz publikację odtworzonych eksperymentów i metaanaliz.

Jeśli chodzi o teoretykę informacji lub podejście bayesowskie, używają różnych narzędzi i przyjmują różne założenia, ale wciąż nie mają wszystkich odpowiedzi, a ostatecznie napotykają te same problemy lub gorzej, ponieważ wnioskowanie bayesowskie wycofuje się z robienia ostatecznych odpowiedz i po prostu przytoczy dowody względne lub nieobecne.

Uczenie maszynowe ma również wyniki, które należy wziąć pod uwagę pod względem znaczenia - często z CI lub T-testem, często z wykresami, miejmy nadzieję raczej parując niż porównując i używając odpowiednio skompensowanych wersji, gdy dystrybucje się nie zgadzają. Ma również kontrowersje dotyczące ładowania początkowego i weryfikacji krzyżowej, a także stronniczości i wariancji. Najgorsze jest to, że ma tendencję do generowania i testowania miriad alternatywnych modeli poprzez dokładne sparametryzowanie wszystkich algorytmów w jednym z wielu zestawów narzędzi, zastosowanych do starannie zarchiwizowanych zestawów danych, aby umożliwić nieograniczone wielokrotne testowanie. Najgorsze jest nadal w ciemnościach, używając do oceny dokładności lub jeszcze gorzej F-pomiaru, a nie metod korygujących przypadek.

Przeczytałem dziesiątki artykułów na te tematy, ale nie znalazłem niczego całkowicie przekonującego - z wyjątkiem negatywnych badań lub artykułów z metaanalizy, które wydają się wskazywać, że większość badaczy nie obsługuje i nie interpretuje statystyk poprawnie w odniesieniu do jakiegokolwiek „standardu” ”, stary lub nowy. Moc, wielokrotne testowanie, zmiana rozmiaru i wczesne zatrzymywanie, interpretacja standardowych błędów i przedziały ufności ... to tylko niektóre z problemów.

Proszę, zestrzel mnie - chciałbym udowodnić, że się mylę! Moim zdaniem jest dużo wody do kąpieli, ale nie znaleźliśmy jeszcze dziecka! Na tym etapie żadne skrajne poglądy lub podejście do marki nie wydaje się obiecujące jako odpowiedź, a ci, którzy chcą wyrzucić wszystko inne, prawdopodobnie stracili dziecko.


To nie jest kwestia zestrzelenia cię, nie sądzę, że MOŻE być rozwiązanie tych problemów. Jesteśmy ludźmi rozpoznającymi wzorce na świecie, musimy się pogodzić z zbieżną ważnością. Po swojej słabej próbie udowodnienia istnienia boga Kartezjusz zaczął zbieżną ważność. Czasami tam jest, czasem nie, ale w większości spotykamy się z naszymi nieskończenie małymi mocami obliczeń poznawczych.
Indolering

1

Nie wierzę, że opcjonalne „reguły zatrzymywania” to termin techniczny w odniesieniu do optymalnego zatrzymywania. Wątpię jednak, aby wiele dogłębnej dyskusji na ten temat znaleźć można w podręcznikach statystyki psychologii wstępnej.

Cyniczne uzasadnienie tego jest takie, że wszyscy studenci nauk społecznych mają słabe umiejętności matematyczne. Lepszą odpowiedzią, IMHO, jest to, że proste testy t nie są odpowiednie dla większości eksperymentów nauk społecznych. Trzeba spojrzeć na siłę efektu i dowiedzieć się, czy to rozwiąże różnice między grupami. Pierwsze może wskazywać, że drugie jest możliwe, ale to wszystko, co może zrobić.

Środki wydatków socjalnych, regulacje państwowe i urbanizacja mają statystycznie istotne związki ze środkami zachowań religijnych. Jednak samo stwierdzenie wartości p określa ramy testu w związku przyczynowym typu „wszystko albo nic”. Zobacz:

wprowadź opis zdjęcia tutaj

Wyniki zarówno wydatków socjalnych, jak i urbanizacji mają statystycznie istotne wartości p, ale wydatki socjalne są znacznie silniej skorelowane. To, że wydatki na opiekę społeczną wykazują tak silny związek z innymi miernikami religijności ( wskaźnik niereligijny oraz komfort religijny ), dla których urbanizacja nawet nie osiąga wartości p < .10, co sugeruje, że urbanizacja nie wpływa na ogólne przekonania religijne. Należy jednak pamiętać, że nawet wydatki socjalne nie wyjaśniają Irlandii ani Filipin, co pokazuje, że niektóre inne efekty są stosunkowo silniejsze niż wydatki socjalne .

Poleganie na „regułach zatrzymywania” może prowadzić do fałszywych wyników pozytywnych, szczególnie w przypadku niewielkiej liczebności psychologii. Psychologia jako dziedzina jest naprawdę powstrzymywana przez tego rodzaju statystycznych shenaniganów. Jednak oparcie całej naszej wiary na arbitralnej wartości p jest również dość głupie. Nawet jeśli wszyscy wysłany nasze przykładowe rozmiary i oświadczenia hipoteza czasopiśmie przed przeprowadzeniem eksperymentu, będziemy nadal napotkasz fałszywych alarmów jako akademickiego jest zbiorowo trolling istotności statystycznej.

Właściwą czynnością nie jest zatrzymanie eksploracji danych, właściwą rzeczą jest opisanie wyników w odniesieniu do ich efektu . Teorie ocenia się nie tylko na podstawie dokładności ich prognoz, ale także na podstawie ich przydatności . Bez względu na to, jak dobra jest metodologia badań, lek, który zapewnia poprawę o 1% w objawach przeziębienia, nie jest wart kosztu pakowania w kapsułkę.

Aktualizacja Aby być jasnym, całkowicie zgadzam się, że naukowcy społeczni powinni mieć wyższy standard: musimy poprawić edukację, dać naukowcom lepsze narzędzia i podnieść poziomy istotności do 3-sigma. Próbuję podkreślić niedostatecznie reprezentowany punkt: ogromna większość badań psychologicznych jest bezwartościowa, ponieważ wielkość efektu jest tak mała.

Ale dzięki Amazon Turk mogę odpowiednio zrekompensować prowadzenie 10 badań parralelowych i bardzo tanio utrzymać poziom ufności> 3 sigma. Ale jeśli siła efektu jest niewielka, istnieją znaczące zagrożenia dla zewnętrznej ważności. Skutek manipulacji może być spowodowany wiadomością, uporządkowaniem pytań lub ...

Nie mam czasu na esej, ale problemy z jakością w naukach społecznych wykraczają daleko poza kiepskie metody statystyczne.


Rozumiem, że tutaj jest pewne połączenie badań socjologicznych (zwykle badań nieeksperymentalnych) i klinicznych. Twoje pierwsze zdanie nie ma jednak sensu: przestrzeganie zasad jest ogromnym obszarem badań w badaniach klinicznych. Uzasadnieniem tego jest to, że wiele skorelowanych hipotez testowanych sekwencyjnie stanowi część wstępnie określonego planu analizy. Link do pytania PO nie jest jednak kwestią złej matematyki, lecz złej nauki. Przeprowadzanie wielu testów statystycznych w celu „wyczucia” właściwej analizy i zatrzymywanie się, gdy odkryje się znaczenie, jest złą nauką bez względu na to, jak ją wyciąć.
AdamO,

@AdamO Zgadzam się! Kiedy to napisałem, byłem studentem próbującym korzystać z metod eksploracji danych, a kiedy poszedłem upewnić się, że robię wszystko poprawnie (którym byłem), początkowe reakcje, które otrzymałem od profesorów i statystyk, były ... naiwne. Jak na ironię, standardową procedurą dla laboratoriów nauk społecznych jest prowadzenie badań pilotażowych, dopóki nie znajdą czegoś interesującego. Robiłem to samo, ale faktycznie próbowałem to zrekompensować: p
Indolering

0

W cytowanym artykule nie ma wzmianki o przestrzeganiu zasad i wydaje się, że ma niewielki związek z bieżącym problemem. Ich jedyną, bardzo niewielką zależnością jest relacja wielokrotnego testowania, która jest pojęciem statystycznym , a nie naukowym.

W piśmiennictwie z badań klinicznych okaże się, że reguły dotyczące zatrzymywania są rygorystyczne, z wyraźną informacją o warunkach, w których badanie będzie „wyglądać”: na podstawie roku kalendarzowego lub liczby osobolat, ustawienia poziomu alfa i wiąże się również z efektami „skutecznych” i „szkodliwych” zabiegów. Rzeczywiście, powinniśmy uważać rygorystyczne prowadzenie takich badań za przykład dobrze wykonanej nauki . FDA posunę się nawet do stwierdzenia, że ​​po znaczącym ustaleniu skuteczności innej niż wcześniej określona, należy przeprowadzić drugie badanie, aby potwierdzić te ustalenia. Pozostaje to problemem tak bardzo, że Thomas Flemming zaleca, aby wszystkie badania kliniczne tego wymagałyzatwierdzone w całkowicie niezależnym drugim badaniu potwierdzającym , przeprowadzonym przez oddzielne podmioty. Tak zły jest problem fałszywie dodatnich błędów przy rozważaniu życia i opieki medycznej.

Z pozornie nieszkodliwym nadzorem inne dziedziny nauki utrwalają złą etykę w badaniach. Rzeczywiście, nauki społeczne nie wpływają na leczenie, jakie otrzymują ludzie, zajmują się streszczeniami i modelami konceptualnymi, które tylko pogłębiają nasze rozumienie wzajemnej zależności teorii i obserwacji. Jednak każdemu konsumentowi nauk społecznych, świeckim lub naukowym, często przedstawiane są sprzeczne ustalenia: czekolada jest dla ciebie dobra, czekolada jest dla ciebie zła (czekolada jest dla ciebie dobra, nawiasem mówiąc, cukier i tłuszczw czekoladzie jest dla ciebie zła), seks jest dla ciebie dobry, małżeństwo cię smuci / małżeństwo cię uszczęśliwia. Ta dziedzina jest zaniedbana przy złej nauce. Nawet ja jestem winny pracy nad analizami, w których byłem niezadowolony z silnie przyczynowego języka, który był następnie związany z silnymi zaleceniami dotyczącymi polityki i wsparcia federalnego, całkowicie nieuzasadnionymi, a jednak opublikowanymi.

Artykuł Simmonsa skutecznie opisuje, w jaki sposób ujawnienie pomogłoby w wyraźnym wyrażeniu rodzajów „skrótów”, jakie badacze wprowadzają w badaniach społecznych. Simmons podaje w tabeli 1 przykład, w jaki sposób pogłębianie danych radykalnie zwiększa fałszywie dodatnie wskaźniki błędów w sposób typowy dla nieetycznych naukowców „poszukujących ustaleń”. Podsumowanie ustaleń w tabeli 2 opisuje często pomijane aspekty artykułów, które mogłyby znacznie poprawić zrozumienie, w jaki sposób przeprowadzono więcej niż jedną analizę.

Podsumowując, zasady zatrzymywania byłyby właściwe tylko przy założonej hipotezie: są one etycznie uzasadnione i wymagają metod statystycznych. Artykuł Simmonsa przyznaje, że wiele badań nawet tego nie przyznaje i jest to etycznie niestosowne, ale język statystyczny przekonuje, dlaczego dokładnie jest źle.


Nie rozumiem, dlaczego powiedziałbyś, że cytowany artykuł ma niewielki wpływ na omawiany problem. Zawiera sekcję nagłówków zatytułowaną „Bliższe spojrzenie na elastyczność wielkości próby”, która dotyczy opcjonalnego zatrzymania. Spójrz jeszcze raz.
Michael Lew - przywróć Monikę

@MichaelLew podsumowując odpowiedź: przestrzeganie zasad wiąże się z badaniami klinicznymi, rekrutacją i kontynuacją, ale testowanie jednej z góry ustalonej hipotezy jest to dopuszczalna praktyka w badaniach urządzeń FDA i środków terapeutycznych. Artykuł Simmonsa dotyczy etyki badań, kryteriów i hakowania p w badaniach medycyny społecznej i naukowcach. Czy możesz opisać dokładniej, jak postrzegasz relację? Być może możesz edytować swój post, aby zdefiniować terminy i podać odniesienia do innej literatury, w szczególności dotyczącej „zasad zatrzymania”, których AFAIK nie istnieje poza badaniami klinicznymi.
AdamO,

Nie sądzę też, aby twoja charakterystyka „inne dziedziny nauki utrwalały złą etykę w badaniach” była słuszna lub pomocna. Moje pierwotne pytanie polega na tym, że wydaje się, że nie ma powodu, dla którego użytkownicy statystyk w niepełnym wymiarze godzin byliby nawet świadomi potencjalnych problemów wynikających z niezadeklarowanych analiz okresowych. Niesprawiedliwe jest nazywanie ignorancji nieetyczną.
Michael Lew - przywróć Monikę

@MichaelLew co definiujesz jako „analizę tymczasową”?
AdamO,

Adam, nie sądzę, że masz rację mówiąc, że „zasady dotyczące zatrzymania nie istnieją poza badaniami klinicznymi”. Nie często są wymieniane poza próbami klinicznymi (patrz moje oryginalne pytanie), ale istnieją dla każdego eksperymentu. Nawet próba o ustalonej wielkości próby ma zasadę „kontynuuj aż do uzyskania wielkości próbki”.
Michael Lew - przywróć Monikę
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.