Korekta Bonferroni zawsze zapewni silną kontrolę rodzinnego wskaźnika błędów. Oznacza to, że bez względu na charakter i liczbę testów lub relacje między nimi, jeśli ich założenia zostaną spełnione, zapewni, że prawdopodobieństwo uzyskania choć jednego błędnego znaczącego wyniku wśród wszystkich testów będzie co najwyżej , twój pierwotny poziom błędu . Dlatego jest zawsze dostępny .α
To, czy stosowne jest jego użycie (w przeciwieństwie do innej metody, czy też może w ogóle brak korekty) zależy od twoich celów, standardów dyscypliny i dostępności lepszych metod dla twojej konkretnej sytuacji. Przynajmniej powinieneś prawdopodobnie rozważyć metodę Holma-Bonferroniego, która jest równie ogólna, ale mniej konserwatywna.
Jeśli chodzi o swój przykład, ponieważ wykonują szereg testów, to jest zwiększenie poziomu błędów rodzinny mądry (prawdopodobieństwo odrzucenia co najmniej jednej hipotezy zerowej błędnie). Jeśli wykonasz tylko jeden test na każdej połowie, możliwe będzie wiele korekt, w tym metoda Hommela lub metody kontrolujące współczynnik fałszywych wykrytych błędów (który różni się od rodzinnego wskaźnika błędów). Jeśli przeprowadzisz test na całym zestawie danych, a następnie kilka podtestów, testy nie będą już niezależne, więc niektóre metody nie są już odpowiednie. Jak powiedziałem wcześniej, Bonferroni jest zawsze dostępny i gwarantuje działanie zgodne z reklamą (ale także bardzo konserwatywny…).
Możesz również zignorować cały problem. Formalnie poziom błędu dla całej rodziny jest wyższy, ale przy zaledwie dwóch testach nadal nie jest tak źle. Możesz także rozpocząć od testu całego zestawu danych, traktowanego jako główny wynik, a następnie podtestów dla różnych grup, nieskorygowanych, ponieważ są one rozumiane jako wyniki wtórne lub dodatkowe hipotezy.
Jeśli weźmiesz pod uwagę wiele zmiennych demograficznych w ten sposób (w przeciwieństwie do zwykłego testowania różnic płci od samego początku lub być może bardziej systematycznego modelowania), problem staje się poważniejszy ze znacznym ryzykiem „pogłębiania danych” (jedna różnica okazuje się znaczący przez przypadek, umożliwiając uratowanie niejednoznacznego eksperymentu z ładną historią o zmiennej demograficznej do uruchomienia, podczas gdy tak naprawdę nic się nie wydarzyło) i zdecydowanie powinieneś rozważyć jakąś formę dostosowania do wielokrotnych testów. Logika pozostaje taka sama w przypadku X różnych hipotez (dwukrotne testowanie hipotez X - po jednej na każdą połowę zestawu danych - pociąga za sobą wyższy poziom błędu rodzinnego niż testowanie hipotez X tylko raz i prawdopodobnie należy to dostosować).