Czytam slajdy „Doing Bayesian Data Analysis” Johna Kruschkego , ale tak naprawdę mam pytanie o jego interpretację testów t i / lub całą strukturę testowania znaczenia hipotezy zerowej. Twierdzi, że wartości p są źle zdefiniowane, ponieważ zależą od intencji badacza.
W szczególności podaje przykład (strony 3-6) dwóch laboratoriów, które zbierają identyczne zestawy danych porównujące dwa zabiegi. Jedno laboratorium zobowiązuje się do gromadzenia danych od 12 osobników (po 6 na każdy warunek), podczas gdy drugie zbiera dane przez określony czas, co zdarza się również, że daje 12 osobników. Według szkiełkami krytyczna -wartość dla p < 0,05 , różni się między tymi dwoma systemami zbierania danych: t Crit = 2,33 dla tego pierwszego, ale T Crit = 2,45 dla tych ostatnich!
Wpis na blogu - którego teraz nie mogę znaleźć - zasugerował, że scenariusz o ustalonym czasie trwania ma więcej stopni swobody, ponieważ mogli gromadzić dane z 11, 13 lub dowolnej innej liczby podmiotów, podczas gdy scenariusz o ustalonym czasie trwania - definicja ma .
Czy ktoś mógłby mi wyjaśnić:
Dlaczego wartość krytyczna różni się między tymi warunkami?
(Zakładając, że to problem). Jak byś zajął się poprawianiem / porównywaniem efektów różnych kryteriów zatrzymania?
Wiem, że ustawienie kryteriów zatrzymania w oparciu o istotność (np. Próbka do ) może zwiększyć szanse na błąd typu I, ale wydaje się, że tak się nie dzieje, ponieważ żadna reguła zatrzymania nie zależy od wyniku analiza.