Jeśli uruchomisz niezależnych testów statystycznych, używając α jako poziomu istotności, a wartość null zostanie uzyskana w każdym przypadku, to, czy znajdziesz „istotność”, jest po prostu losowaniem zmiennej losowej. W szczególności jest on pobierany z rozkładu dwumianowego przy p = α i n = k . Na przykład, jeśli planujesz uruchomić 3 testy przy użyciu α = .05 , i (bez wiedzy) w rzeczywistości nie ma żadnej różnicy w każdym przypadku, wtedy istnieje 5% szans na znalezienie znaczącego wyniku w każdym teście. W ten sposób współczynnik błędu typu I jest utrzymywany na poziomie αkαp = αn = kα = 0,05αdla testów pojedynczo, ale w zestawie 3 testów wskaźnik błędu długoterminowego typu I będzie wyższy. Jeśli uważasz, że sensowne jest zgrupowanie / przemyślenie tych 3 testów razem, możesz chcieć utrzymać współczynnik błędów typu I na poziomie dla zestawu jako całości , a nie tylko indywidualnie. Jak powinieneś to zrobić? Istnieją dwa podejścia, które koncentrują się na przejściu z pierwotnej wartości α (tj. Α o ) do nowej wartości (tj. Α n e w ):αααoαn e w
Bonferroni: dostosuj używane do oceny „istotności”, tak abyα
αn e w= αok
Dunn-Sidak: dostosuj za pomocąα
αn e w= 1 - ( 1 - αo)1 / k
(Należy zauważyć, że Dunn-Sidak zakłada, że wszystkie testy w zestawie są od siebie niezależne i mogą przynieść inflację błędu rodzinnego typu I, jeśli to założenie się nie powiedzie.)
Ważne jest, aby pamiętać, że podczas przeprowadzania testów istnieją dwa rodzaje błędów , których chcesz uniknąć: typ I (tj. Mówiąc, że jest różnica, gdy nie ma jednego) i typ II (tj. Mówiąc, że nie ma różnica, kiedy tak naprawdę jest). Zazwyczaj, gdy ludzie dyskutują na ten temat, dyskutują tylko - i wydaje się, że są świadomi / zaniepokojeni - błędami typu I. Ponadto ludzie często nie wspominają, że obliczony poziom błędu będzie obowiązywał tylko wtedy, gdy wszystkie wartości null będą prawdziwe. Jest trywialnie oczywiste, że nie można popełnić błędu typu I, jeśli hipoteza zerowa jest fałszywa, ale ważne jest, aby o tym fakcie dyskutować.
Mówię o tym, ponieważ istnieją implikacje tych faktów, które wydają się często nieuwzględniane. Po pierwsze, jeśli , podejście Dunna-Sidaka będzie oferowało wyższą moc (chociaż różnica może być dość mała przy małym k ) i dlatego zawsze powinna być preferowana (jeśli dotyczy). Po drugie, należy zastosować podejście „stopniowe” . To znaczy najpierw przetestuj największy efekt; jeśli jesteś przekonany, że null nie uzyskuje w tym przypadku, to maksymalna możliwa liczba błędów typu I wynosi k - 1 , więc następny test powinien zostać odpowiednio dostosowany i tak dalej. (To często sprawia, że ludzie czują się niekomfortowo i wyglądają jak wędkowanie, ale tak nie jestk > 1kk - 1łowienie ryb, ponieważ testy są niezależne i zamierzałeś je przeprowadzić, zanim zobaczysz dane. To tylko sposób na optymalne dostosowanie ). α
Powyższe obowiązuje bez względu na to, jak cenisz typ I w stosunku do błędów typu II. Jednak z góry nie ma powodu, aby sądzić, że błędy typu I są gorsze niż typu II (pomimo faktu, że wszyscy tak sądzą). Zamiast tego jest to decyzja, którą musi podjąć badacz i musi ona być specyficzna dla tej sytuacji. Osobiście, jeśli korzystam z teoretycznie sugerowanych kontrastów ortogonalnych a priori , zwykle nie dostosowuję .α
(I stwierdzając to ponownie, ponieważ jest to ważne, wszystkie powyższe założenia zakładają, że testy są niezależne. Jeśli kontrasty nie są niezależne, na przykład gdy kilka zabiegów jest porównywane z tą samą kontrolą, podejście inne niż dostosowanie , takie jak test Dunnetta, należy zastosować). α