Nie możesz mieć reguły zatrzymywania bez pojęcia o twojej dystrybucji i wielkości efektu - czego nie znasz a priori.
Również tak, musimy skupić się na wielkości efektu - i nigdy nie uważano za poprawne uwzględnienie tylko wartości p, i na pewno nie powinniśmy pokazywać tabel lub wykresów, które pokazują wartości p lub wartości F, a nie wielkości efektu.
Występują problemy z tradycyjnym testowaniem wnioskowania hipotez statystycznych (co według Cohena jest warte jego akronimu, a Fisher i Pearson obróciliby się w grobach, gdyby zobaczyli wszystko, co dzieje się dziś pod ich gwałtownie przeciwstawionymi nazwami).
Aby wyznaczyć N, musisz już określić docelowe znaczenie i próg mocy, a także poczynić wiele założeń dotyczących rozkładu, a w szczególności musisz także określić wielkość efektu, który chcesz ustalić. Indolering ma rację, że powinien to być punkt wyjścia - jaki minimalny rozmiar efektu byłby opłacalny!
„Nowe statystyki” opowiadają się za pokazywaniem wielkości efektu (w stosownych przypadkach jako sparowanej różnicy), wraz z powiązanymi odchyleniami standardowymi lub wariancjami (ponieważ musimy zrozumieć rozkład) oraz odchyleniami standardowymi lub przedziałami ufności (ale ta ostatnia jest już zablokowanie wartości p i decyzja o tym, czy przewidujesz kierunek, czy zakład w jedną stronę). Ale ustalenie minimalnego efektu określonego znaku za pomocą naukowej prognozy, wyjaśnia to jasno - chociaż przednaukową wartością domyślną jest wykonywanie prób i błędów i po prostu szukanie różnic. Ale i tak przyjęliście założenia dotyczące normalności.
Innym podejściem jest stosowanie wykresów pudełkowych jako podejścia nieparametrycznego, ale konwencje dotyczące wąsów i wartości odstających są bardzo zróżnicowane, a nawet same powstają w założeniach dystrybucyjnych.
Problem zatrzymania rzeczywiście nie jest problemem indywidualnego ustawienia badacza lub braku ustawienia N, ale że mamy całą społeczność tysięcy naukowców, gdzie 1000 to znacznie więcej niż 1 / alfa dla tradycyjnego poziomu 0,05. Obecnie proponowana jest odpowiedź na dostarczenie statystyk podsumowujących (średnia, stddev, stderr - lub odpowiadające im „wersje nieparametryczne - mediana itp. Jak w przypadku wykresu pudełkowego) w celu ułatwienia metaanalizy i przedstawienia połączonych wyników ze wszystkich eksperymentów, niezależnie od tego, czy mają miejsce osiągnąć określony poziom alfa lub nie.
Ściśle związany jest problem wielokrotnego testowania, który jest równie trudny, a eksperymenty są utrzymywane zbyt uproszczone w imię zachowania mocy, podczas gdy proponowane są nadmiernie złożone metody analizy wyników.
Nie wydaje mi się, aby mógł istnieć rozdział w książce, który ostatecznie poradziłby sobie z tym, ponieważ wciąż nie mamy pojęcia, co robimy ...
W tej chwili najlepszym podejściem jest prawdopodobnie dalsze stosowanie tradycyjnych statystyk najbardziej odpowiednich do problemu, w połączeniu z wyświetlaniem statystyk podsumowujących - najważniejszy jest efekt i błąd standardowy, a N jest najważniejsze. Zastosowanie przedziałów ufności jest w zasadzie równoważne z odpowiednim testem T, ale umożliwia bardziej sensowne porównywanie nowych wyników z opublikowanymi, a także pozwala na etos zachęcający do odtwarzalności oraz publikację odtworzonych eksperymentów i metaanaliz.
Jeśli chodzi o teoretykę informacji lub podejście bayesowskie, używają różnych narzędzi i przyjmują różne założenia, ale wciąż nie mają wszystkich odpowiedzi, a ostatecznie napotykają te same problemy lub gorzej, ponieważ wnioskowanie bayesowskie wycofuje się z robienia ostatecznych odpowiedz i po prostu przytoczy dowody względne lub nieobecne.
Uczenie maszynowe ma również wyniki, które należy wziąć pod uwagę pod względem znaczenia - często z CI lub T-testem, często z wykresami, miejmy nadzieję raczej parując niż porównując i używając odpowiednio skompensowanych wersji, gdy dystrybucje się nie zgadzają. Ma również kontrowersje dotyczące ładowania początkowego i weryfikacji krzyżowej, a także stronniczości i wariancji. Najgorsze jest to, że ma tendencję do generowania i testowania miriad alternatywnych modeli poprzez dokładne sparametryzowanie wszystkich algorytmów w jednym z wielu zestawów narzędzi, zastosowanych do starannie zarchiwizowanych zestawów danych, aby umożliwić nieograniczone wielokrotne testowanie. Najgorsze jest nadal w ciemnościach, używając do oceny dokładności lub jeszcze gorzej F-pomiaru, a nie metod korygujących przypadek.
Przeczytałem dziesiątki artykułów na te tematy, ale nie znalazłem niczego całkowicie przekonującego - z wyjątkiem negatywnych badań lub artykułów z metaanalizy, które wydają się wskazywać, że większość badaczy nie obsługuje i nie interpretuje statystyk poprawnie w odniesieniu do jakiegokolwiek „standardu” ”, stary lub nowy. Moc, wielokrotne testowanie, zmiana rozmiaru i wczesne zatrzymywanie, interpretacja standardowych błędów i przedziały ufności ... to tylko niektóre z problemów.
Proszę, zestrzel mnie - chciałbym udowodnić, że się mylę! Moim zdaniem jest dużo wody do kąpieli, ale nie znaleźliśmy jeszcze dziecka! Na tym etapie żadne skrajne poglądy lub podejście do marki nie wydaje się obiecujące jako odpowiedź, a ci, którzy chcą wyrzucić wszystko inne, prawdopodobnie stracili dziecko.