W końcu, jeśli artykuł poświęcił lata na napisanie i przeszedł rygorystyczną recenzję, to z pewnością statystyki będą solidne?
Moje doświadczenie w czytaniu artykułów, które próbują zastosować statystyki z wielu różnych dziedzin (nauki polityczne, ekonomia, psychologia, medycyna, biologia, finanse, nauki aktuarialne, rachunkowość, optyka, astronomia i wiele, wiele innych), to że jakość analiza statystyczna może być w dowolnym miejscu w spektrum, od doskonałych i dobrze wykonanych do rażących bzdur. Widziałem dobrą analizę we wszystkich wymienionych przeze mnie obszarach i dość źle wykonaną analizę w prawie wszystkich z nich.
Niektóre dzienniki są na ogół całkiem dobre, a niektóre mogą przypominać grę w rzutki z zasłoniętymi oczami - możesz dostać większość z nich niezbyt strasznie daleko od celu, ale będzie ich kilka w ścianie, podłodze i suficie. A może kot.
Nie planuję nazywać żadnych winowajców, ale powiem, że widziałem kariery akademickie oparte na niewłaściwym stosowaniu statystyk (tj. Gdzie te same błędy i nieporozumienia powtarzały się w papierze po papierze przez ponad dekadę).
Tak więc radzę, aby czytelnik uważał ; nie ufaj, że redaktorzy i recenzenci wiedzą, co robią. Z czasem możesz mieć poczucie, na których autorach można polegać, aby nie robić nic zbyt szokującego, a na których należy szczególnie ostrożnie traktować. Możesz mieć wrażenie, że niektóre czasopisma mają zazwyczaj bardzo wysoki standard statystyk.
Ale nawet zazwyczaj dobry autor może popełnić błąd, a recenzenci i redaktorzy mogą nie wykryć błędów, które normalnie mogą znaleźć; zazwyczaj dobry dziennik może opublikować wycie.
[Czasami zobaczysz nawet, że naprawdę złe papiery wygrywają nagrody lub wyróżnienia ... co niewiele mówi o jakości ludzi oceniających nagrodę.]
Nie chciałbym zgadywać, jaką część „złych” statystyk mogłem zobaczyć (pod różnymi postaciami i na każdym etapie od zdefiniowania pytania, projektu badania, gromadzenia danych, zarządzania danymi ... aż do analizy i wnioski), ale nie jest wystarczająco mała, aby czuć się komfortowo.
Mógłbym wskazać przykłady, ale nie sądzę, że jest to właściwe forum, aby to zrobić. (Byłoby miło, gdyby nie było to forum dla dobra, że faktycznie, ale potem znowu, to prawdopodobnie się bardzo „upolityczniona” dość szybko, a wkrótce nie spełniać swoje zadania.)
Spędziłem trochę czasu na przeszukiwaniu PLOS ONE ... i znowu, nie zamierzam wskazywać na konkretne dokumenty. Niektóre rzeczy zauważyłem: wygląda na to, że duża część artykułów ma statystyki, prawdopodobnie więcej niż połowa ma testy hipotez. Głównymi zagrożeniami wydają się być liczne testy, albo z wysokim jak 0,05 na każdym (co nie jest automatycznie problemem, o ile rozumiemy, że całkiem kilka naprawdę drobnych efektów może być tak znaczących przez przypadek), albo niesamowicie niski indywidualny poziom istotności, który będzie miał tendencję do dawania niskiej mocy. Widziałem także wiele przypadków, w których około pół tuzina różnych testówαnajwyraźniej zostały zastosowane do rozwiązania dokładnie tego samego pytania. To wydaje mi się ogólnie złym pomysłem. Ogólnie rzecz biorąc, standard był całkiem dobry w kilkudziesięciu artykułach, ale w przeszłości widziałem tam absolutnie okropny artykuł.
[Być może mógłbym pozwolić sobie na tylko jeden przykład, pośrednio. To pytanie dotyczy tego, czy ktoś robi coś dość wątpliwego. To daleko od najgorszej rzeczy, jaką widziałem.]
Z drugiej strony widzę (jeszcze częściej) przypadki, w których ludzie zmuszeni są skakać przez wszelkiego rodzaju niepotrzebne obręcze, aby uzyskać akceptację analizy; absolutnie uzasadnione rzeczy do zrobienia nie są akceptowane, ponieważ istnieje „właściwy” sposób robienia rzeczy według recenzenta, redaktora lub kierownika lub po prostu w niewypowiedzianej kulturze danego obszaru.