Jak rygorystycznie uzasadnić wybrane fałszywie dodatnie / fałszywie ujemne poziomy błędu i leżący u ich podstaw stosunek kosztów?


12

Kontekst

Grupa naukowców i statystów ( Benjamin i in., 2017 ) niedawno zasugerowała, że ​​typowy współczynnik fałszywie dodatnich ( = 0,05) stosowany jako próg dla określenia „istotności statystycznej” musi zostać dostosowany do bardziej konserwatywnego progu ( = .005). Konkurencyjna grupa naukowców i statystyk ( Lakens i in., 2018 ) odpowiedziała, argumentując przeciwko zastosowaniu tego - lub jakiegokolwiek innego - arbitralnie wybranego progu. Poniżej cytat z Lakens i in. (s. 16), które pomagają zilustrować przedmiot mojego pytania:αα

Idealnie poziom alfa określa się poprzez porównanie kosztów i korzyści z funkcją użyteczności z wykorzystaniem teorii decyzji. Ta analiza kosztów i korzyści (a tym samym poziom alfa) różni się podczas analizy dużych istniejących zestawów danych w porównaniu do gromadzenia danych z trudnych do uzyskania próbek. Nauka jest zróżnicowana i do naukowców należy uzasadnienie poziomu alfa, którego zdecydują się użyć. ... Badania powinny opierać się na zasadach rygorystycznej nauki, a nie na heurystyce i arbitralnych progach ogólnych.

Pytanie

Zastanawiam się, jak można usprawiedliwić wybraną alfę w sposób „kierujący się zasadami rygorystycznej nauki”, jak Lakens i in. sugerują, w większości kontekstów nauk społecznych (tj. poza wybranymi przypadkami, w których można zoptymalizować bardziej konkretną jakość, taką jak zysk)?

Po rozpowszechnieniu Lakensa i wsp. Zacząłem widzieć kalkulatory online w obiegu, aby pomóc badaczom w podjęciu tej decyzji. Korzystając z nich, badacze muszą określić „stosunek kosztów” błędów fałszywie dodatnich i fałszywie ujemnych. Jednak, jak to kalkulator tutaj sugeruje, ustalania takiego współczynnika A koszt może obejmować wiele ilościowego domysłów pracy:

Podczas gdy niektóre koszty błędów są łatwe do kwantyfikacji w kategoriach pieniężnych (koszty bezpośrednie), inne są trudne do określenia kwoty dolara (koszty pośrednie). ... Mimo trudnych do oszacowania liczb, powinieneś postarać się podać im liczbę.

Na przykład, chociaż Lakens i in. sugerują badanie trudnodostępnych próbek jako czynnik, który można wziąć pod uwagę przy uzasadnianiu alfa, wydaje się, że wciąż zastanawia się, jak trudno jest dotrzeć do tej próbki, a tym samym, jak odpowiednio dostosować wybór alfa. Jako kolejny przykład wydaje mi się trudne oszacowanie kosztów opublikowania wyników fałszywie dodatnich pod względem ilości czasu / pieniędzy, które inni zaangażowaliby następnie w badania oparte na błędnym wnioskowaniu.

Jeśli określenie tego wskaźnika kosztów jest w dużej mierze kwestią subiektywnego zgadywania, nie zastanawiam się, czy te decyzje mogą kiedykolwiek (ponownie, poza optymalizacją czegoś takiego jak zysk) być „uzasadnione”. To znaczy w sposób, który istnieje poza założeniami dotyczącymi pobierania próbek, kompromisów, wpływu itp.,? W ten sposób określenie stosunku kosztów błędów fałszywie dodatnich / fałszywie ujemnych wydaje mi się być czymś zbliżonym do wyboru wcześniejszego wnioskowania bayesowskiego - decyzja, która może być nieco subiektywna, wpływać na wyniki, a zatem dyskutowana - - chociaż nie jestem pewien, czy to rozsądne porównanie.

Podsumowanie

Aby moje zapytanie było konkretne:

  1. Czy stawki fałszywie dodatnie / fałszywie ujemne i ich stosunek kosztów mogą być kiedykolwiek „rygorystycznie” uzasadnione w większości kontekstów nauk społecznych?
  2. Jeśli tak, jakie są ogólne zasady, które można zastosować, aby uzasadnić te analityczne wybory (i może przykład lub dwa z nich w działaniu)
  3. Jeśli nie, to czy moja analogia do potencjalnej subiektywności w wyborze wskaźników kosztów - podobnie jak w przypadku wcześniejszej selekcji bayesowskiej - jest rozsądna?

Bibliografia

Benjamin, DJ, Berger, J., Johannesson, M., Nosek, BA, Wagenmakers, E., ... Johnson, V. (2017, 22 lipca). Przedefiniuj znaczenie statystyczne. Źródło: psyarxiv.com/mky9j

Lakens, D., Adolfi, FG, Albers, CJ, Anvari, F., Apps, MA, ... Zwaan, RA (2018, 15 stycznia). Uzasadnij swoją alfę. Źródło: psyarxiv.com/9s3y6


4
Czy potrafisz określić, w jaki sposób używasz „obiektywnie uzasadnionego”? Prawdopodobieństwa błędu typu I są preferencją naukowca ... podobnie jak prawdopodobieństwa błędu a priori typu II. W jaki sposób badacz „obiektywnie uzasadni”, powiedzmy, preferowany program badawczy, preferowany współpracownik badawczy lub fundator, lub preferowane podejście do szkolenia i mentoringu asystenta badawczego?
Alexis,

1
Obiektywnie uzasadnione, ponieważ nie jest to zwykła preferencja. Lakens i wsp., Gazeta krąży obecnie pod skrótem „JYA” [Justify Your Alpha], a moja lektura ich argumentów, oparta na powyższych cytatach, jest taka, że ​​nie zrobi to żadna stara preferencja. Dla jasności: niekoniecznie przedstawiam argument, że można obiektywnie uzasadnić wybrany poziom błędu typu I / II. Moje pytanie opiera się raczej na interpretacji Lakensa i in. sugerować, że możesz, a jeśli tak, to nie rozumiem, jak by to zrobić.
jsakaluk

3
Nie widzę słowa „obiektywnie” w tym cytacie z Lakens i in. Czy naprawdę używają tego w swojej pracy? Jeśli tak, może mógłbyś dodać kolejny cytat, aby podać bardziej szczegółowy kontekst? Jeśli nie, to nie jestem pewien, czy można powiedzieć takie rzeczy, jak „obiektywnie uzasadnia wybraną alfę, jak sugerują Lakens i wsp.”.
ameba mówi Przywróć Monikę

2
Zaktualizowałem post, który jest teraz pozbawiony „obiektywizmu”. Nie miałem zamiaru źle opisywać argumentu, ale rozumiem, czy czytelnicy myśleli, że pisałem niedbale. Lakens i in. należy użyć deskryptor „kierując się zasadami dyscypliny naukowej”, więc moje pytanie jest teraz na pewniejszego zasadach. Wciąż jednak zastanawiam się, co to może znaczyć; jak zgadywanie wydaje się być bardziej rygorystyczne niż heurystyka? Jeśli to robi różnicę, jestem szczególnie ciekawy, w jaki sposób realista naukowy osiągnąłby standard „naukowo rygorystycznego” uzasadnienia dla alfa.
jsakaluk

2
Ponownie, to nie jest mój termin, a część mojego pytania ma na celu uzyskanie odpowiedzi, które mogą pomóc mi zrozumieć, co ten termin może oznaczać - proszę o przykładowe ogólne zasady - w ramach ograniczeń tego, co Lakens i in. Mówią, że nie średnia (tj. nie heurystyczna; nie arbitralny próg). Jeśli masz na myśli wiele definicji „naukowo rygorystycznego uzasadnienia”, które mogą generować różne „ i które spełniają ograniczenia nieheurystyczne / niearibitralne, chętnie je przeczytam. α
jsakaluk

Odpowiedzi:


1

(opublikowano również na Twitterze, ale ponownie opublikowano tutaj). Moja próba odpowiedzi: nie sądzę, aby uzasadnienie było „czysto” obiektywne, ale może być oparte na kryteriach, które można uzasadnić na podstawie racjonalnych / empirycznych podstaw. Myślę, że RSS jest przykładem sposobu uzasadnienia p <.005 dla niektórych rodzajów badań, ale sądzę również, że istnieją inne okoliczności, w których inna alfa byłaby bardziej optymalna niż <.005 (wyższa lub niższa) w zależności od jaka alfa jest wykonalna i jaki jest cel badania. Na przykład, jeśli masz 5000 uczestników, a najmniejszy interesujący rozmiar efektu to .10, możesz użyć p <.001 i mieć 90% mocy (wszystkie liczby są wymyślone). Dla kontrastu, powiedz, że przeprowadzasz mały eksperyment jako wstępny „dowód koncepcji” dla linii badań. Możesz mieć N = 100, p <.10, moc 90%,


1

Ostatnio często zastanawiałem się nad tym samym pytaniem i przypuszczam, że wielu innych również jest w psychologii.

Po pierwsze, każde z twoich pytań dotyczy tego, czy wybór jest dokonywany obiektywnie czy subiektywnie, ale (jak zauważyli inni tutaj) nie w pełni wyjaśniłeś, co stanowi (Twoim zdaniem) wybór obiektywny czy subiektywny.

Być może zainteresuje Cię artykuł Gelman & Hennig 2015, który rozpakowuje różnorodne wartości zawarte w powszechnym użyciu w nauce etykiet „obiektywnych” i „subiektywnych”. W swoim sformułowaniu „obiektywny” odnosi się do wartości przejrzystości, konsensusu, bezstronności i korespondencji z możliwą do zaobserwowania rzeczywistością, podczas gdy „subiektywny” odnosi się do wartości wielu perspektyw i zależności od kontekstu.

W odniesieniu do pytania 3, w ujęciu Bayesa, prawdopodobieństwo definiuje się jako kwantyfikację niepewności co do świata. Z tego, co rozumiem, istnieje napięcie między „subiektywistycznym bayesowskim” (prawdopodobieństwa odzwierciedlają poszczególne stany przekonania) i „obiektywistycznym bayesowskim” szkołem myślenia (prawdopodobieństwa odzwierciedlają konsensusową wiarygodność). W szkole obiektywistycznej kładzie się większy nacisk na uzasadnienie wcześniejszego podziału (i bardziej ogólnie modelu) w przejrzysty sposób, który jest zgodny z konsensusem i który można sprawdzić, ale wybór modelu z pewnością zależy od kontekstu (tj. , zależy od stanu konsensusu wiedzy dla konkretnego problemu).

W koncepcji częstokroć prawdopodobieństwa odzwierciedlają liczbę przypadków wystąpienia zdarzenia przy nieskończonych niezależnych replikacjach. W ramach Neymana-Pearsona zakłada się precyzyjną hipotezę alternatywną i precyzyjną wartość alfa, akceptuje dokładną wartość zerową lub precyzyjną alternatywę (że efekt populacji jest dokładnie równy założonej) na podstawie danych, a następnie zgłasza długoterminowa częstotliwość popełniania tego błędu.

W tych ramach rzadko mamy dokładny punktowy szacunek wielkości efektu populacji, ale raczej zakres prawdopodobnych wartości. Dlatego, zależnie od danej alfa, nie mamy dokładnego oszacowania poziomu błędu typu 2, ale raczej zakres prawdopodobnych poziomów błędu typu 2. Podobnie zgadzam się z twoim ogólnym stwierdzeniem, że zazwyczaj nie mamy dokładnego wyobrażenia o tym, jakie faktycznie będą koszty i korzyści wynikające z błędu typu 1 lub błędu typu 2. Oznacza to, że często mamy do czynienia z sytuacją, w której mamy bardzo niepełne informacje o tym, jaka powinna być nasza hipoteza, a jeszcze mniej informacji o tym, jakie byłyby względne koszty i korzyści przyjęcia lub odrzucenia tej hipotezy.

na twoje pytania:

  1. Czy stawki fałszywie dodatnie / fałszywie ujemne i ich stosunek kosztów mogą być kiedykolwiek obiektywnie uzasadnione w większości kontekstów nauk społecznych?

Myślę, że tak, ponieważ uzasadnienie może być przejrzyste, zgodne z konsensusem, może być bezstronne i zgodne z rzeczywistością (w zakresie, w jakim wykorzystujemy najlepsze dostępne informacje na temat kosztów i korzyści).

Myślę jednak, że takie uzasadnienia są również subiektywne, ponieważ może istnieć wiele ważnych perspektyw dotyczących tego, jak ustawić alfa dla danego problemu, a to, co stanowi odpowiednią alfa, może być znacząco zależne od kontekstu.

Na przykład w ostatnich latach stało się jasne, że wiele efektów w literaturze odzwierciedla błędy typu M lub typu S. Mogą również odzwierciedlać błędy typu 1 w zakresie, w jakim badanie replikacji jest w stanie dostarczyć dowodów na zerowy efekt dokładnie zerowy.

W związku z tą obserwacją powstaje konsensus, że próg wartości p dla twierdzenia z pewnością powinien zostać utrzymany na tym samym poziomie lub być bardziej rygorystyczny (tj. Nikt nie opowiada się za całkowitym wzrostem alfa do .10 lub .20) . Podobnie pojawia się konsensus, że wartości p nie powinny być stosowane jako kryterium publikacji (np. Format raportu zarejestrowanego).

Dla mnie odzwierciedla to rodzaj „obiektywnego” źródła informacji - tj. Według mojej lektury rośnie konsensus, że fałszywe twierdzenia są kosztowne w terenie (nawet jeśli nie możemy przeliczyć kwoty w dolarach na te koszty). Według mojej interpretacji nie ma jednoznacznego konsensusu, że nieosiągnięcie progu wartości p jest dramatycznym kosztem w terenie. Jeśli istnieją koszty, można je złagodzić, jeśli niespełnienie progu wartości p nie wpływa na to, czy szacunek przekształci się w opublikowany artykuł.

  1. Jeśli tak, jakie są ogólne zasady, które można zastosować, aby uzasadnić te analityczne wybory (i może przykład lub dwa z nich w działaniu)

Nie jestem pewien, ale skłaniam się ku jakiejś zasadzie, że decyzje powinny być podejmowane na podstawie przejrzystych (lokalnych lub globalnych) konsensusowych ocen dotyczących kosztów i korzyści różnych rodzajów wyborów analitycznych w określonym kontekście, nawet w obliczu niezwykle niekompletnych informacji o tym, jakie mogą być te koszty i korzyści.

  1. Jeśli nie, to czy moja analogia do potencjalnej subiektywności w wyborze wskaźników kosztów - podobnie jak w przypadku wcześniejszej selekcji bayesowskiej - jest rozsądna?

Tak, w tradycjonalistycznych i bayesowskich tradycjach istnieje miejsce na subiektywność (tj. Wiele perspektyw i zależność od kontekstu), a także obiektywność (tj. Przejrzystość, konsensus, bezstronność i zgodność z obserwowalną rzeczywistością) w wielu różnych aspektach modelu statystycznego oraz w jaki sposób stosuje się ten model (wybrany wcześniej, wybrane prawdopodobieństwo, wybrany próg decyzyjny itp.).


To miła odpowiedź. Jedną z rzeczy, których nie jestem tak pewien, jest roszczenie dotyczące korespondencji. Jeśli rozumiemy ten termin w ten sam sposób (myślę w kategoriach teorii korespondencji prawdy), to w rzeczywistości brzmi to tak, jakby korespondencja mogła być niepewna, jeśli nie mamy dokładnego wyobrażenia o kosztach typu Błędy I / II. Zamiast tego wygląda na to, że lepiej jest domagać się spójności (biorąc pod uwagę te wstępne założenia, reszta liczb „ma sens”) lub pragmatyzmu (nasze przypuszczenie, że koszty błędów typu I / II są użyteczną fikcją do planowania badań).
jsakaluk

Być może zbyt mocno staram się łączyć „uzasadnienie” z perspektywą korespondencji / realisty, a w tych innych sposobach rozumienia poziomy błędów typu I / II można wybrać w sposób „uzasadniony”?
jsakaluk

Dziękujemy za wskazanie mi tych pomysłów. Powiedziałbym, że w danym kontekście możemy mieć dobre informacje na temat potencjalnych przyszłych kosztów i korzyści lub możemy mieć bardzo słabe informacje. W bardzo szorstkim sensie, rośnie konsensus, że fałszywie dodatnie (p <próg, prawdziwy efekt jest dokładnie zerowy) może być bardziej szkodliwe dla pola niż przypadki niespełnienia progu istotności (ale opublikowanie oszacowania i tak). W szczególnych lokalnych okolicznościach mogą wystąpić poważniejsze koszty związane z nieosiągnięciem progu istotności.
zakwas

Stycznie pojęcia „alfa” i „błąd typu 2” istnieją tylko w ramach NP, gdzie analityk określił dwie precyzyjne hipotezy i zobowiązuje się do przyjęcia jednej lub drugiej pod koniec procedury. Jednak w powszechnej praktyce często ostrzega się analityków, aby nie przyjmowali wartości zerowej na podstawie nieistotnego oszacowania o niepewnej mocy, zasadniczo powracając do interpretacji w stylu Fishera, w której nie przyjmuje się wartości zerowej i nie ma „błędu typu 2”.
zakwas

1
Zabawne jest dla mnie, że sieci społecznościowe, klasa społeczna i interakcje społeczne stojące za twoim opisem „konsensusu” są w jakiś sposób oddzielone od subiektywnych przekonań i wartości leżących u ich podstaw.
Alexis,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.