Kontekst
Grupa naukowców i statystów ( Benjamin i in., 2017 ) niedawno zasugerowała, że typowy współczynnik fałszywie dodatnich ( = 0,05) stosowany jako próg dla określenia „istotności statystycznej” musi zostać dostosowany do bardziej konserwatywnego progu ( = .005). Konkurencyjna grupa naukowców i statystyk ( Lakens i in., 2018 ) odpowiedziała, argumentując przeciwko zastosowaniu tego - lub jakiegokolwiek innego - arbitralnie wybranego progu. Poniżej cytat z Lakens i in. (s. 16), które pomagają zilustrować przedmiot mojego pytania:
Idealnie poziom alfa określa się poprzez porównanie kosztów i korzyści z funkcją użyteczności z wykorzystaniem teorii decyzji. Ta analiza kosztów i korzyści (a tym samym poziom alfa) różni się podczas analizy dużych istniejących zestawów danych w porównaniu do gromadzenia danych z trudnych do uzyskania próbek. Nauka jest zróżnicowana i do naukowców należy uzasadnienie poziomu alfa, którego zdecydują się użyć. ... Badania powinny opierać się na zasadach rygorystycznej nauki, a nie na heurystyce i arbitralnych progach ogólnych.
Pytanie
Zastanawiam się, jak można usprawiedliwić wybraną alfę w sposób „kierujący się zasadami rygorystycznej nauki”, jak Lakens i in. sugerują, w większości kontekstów nauk społecznych (tj. poza wybranymi przypadkami, w których można zoptymalizować bardziej konkretną jakość, taką jak zysk)?
Po rozpowszechnieniu Lakensa i wsp. Zacząłem widzieć kalkulatory online w obiegu, aby pomóc badaczom w podjęciu tej decyzji. Korzystając z nich, badacze muszą określić „stosunek kosztów” błędów fałszywie dodatnich i fałszywie ujemnych. Jednak, jak to kalkulator tutaj sugeruje, ustalania takiego współczynnika A koszt może obejmować wiele ilościowego domysłów pracy:
Podczas gdy niektóre koszty błędów są łatwe do kwantyfikacji w kategoriach pieniężnych (koszty bezpośrednie), inne są trudne do określenia kwoty dolara (koszty pośrednie). ... Mimo trudnych do oszacowania liczb, powinieneś postarać się podać im liczbę.
Na przykład, chociaż Lakens i in. sugerują badanie trudnodostępnych próbek jako czynnik, który można wziąć pod uwagę przy uzasadnianiu alfa, wydaje się, że wciąż zastanawia się, jak trudno jest dotrzeć do tej próbki, a tym samym, jak odpowiednio dostosować wybór alfa. Jako kolejny przykład wydaje mi się trudne oszacowanie kosztów opublikowania wyników fałszywie dodatnich pod względem ilości czasu / pieniędzy, które inni zaangażowaliby następnie w badania oparte na błędnym wnioskowaniu.
Jeśli określenie tego wskaźnika kosztów jest w dużej mierze kwestią subiektywnego zgadywania, nie zastanawiam się, czy te decyzje mogą kiedykolwiek (ponownie, poza optymalizacją czegoś takiego jak zysk) być „uzasadnione”. To znaczy w sposób, który istnieje poza założeniami dotyczącymi pobierania próbek, kompromisów, wpływu itp.,? W ten sposób określenie stosunku kosztów błędów fałszywie dodatnich / fałszywie ujemnych wydaje mi się być czymś zbliżonym do wyboru wcześniejszego wnioskowania bayesowskiego - decyzja, która może być nieco subiektywna, wpływać na wyniki, a zatem dyskutowana - - chociaż nie jestem pewien, czy to rozsądne porównanie.
Podsumowanie
Aby moje zapytanie było konkretne:
- Czy stawki fałszywie dodatnie / fałszywie ujemne i ich stosunek kosztów mogą być kiedykolwiek „rygorystycznie” uzasadnione w większości kontekstów nauk społecznych?
- Jeśli tak, jakie są ogólne zasady, które można zastosować, aby uzasadnić te analityczne wybory (i może przykład lub dwa z nich w działaniu)
- Jeśli nie, to czy moja analogia do potencjalnej subiektywności w wyborze wskaźników kosztów - podobnie jak w przypadku wcześniejszej selekcji bayesowskiej - jest rozsądna?
Bibliografia
Benjamin, DJ, Berger, J., Johannesson, M., Nosek, BA, Wagenmakers, E., ... Johnson, V. (2017, 22 lipca). Przedefiniuj znaczenie statystyczne. Źródło: psyarxiv.com/mky9j
Lakens, D., Adolfi, FG, Albers, CJ, Anvari, F., Apps, MA, ... Zwaan, RA (2018, 15 stycznia). Uzasadnij swoją alfę. Źródło: psyarxiv.com/9s3y6