Kiedy korygować wartości p w wielu porównaniach?

Obawiam się, że powiązane pytania nie odpowiedziały na moje. Oceniamy wyniki> 2 klasyfikatorów (uczenie maszynowe). Nasza hipoteza zerowa mówi, że wyniki nie różnią się. Aby ocenić tę hipotezę, wykonujemy testy parametryczne (ANOVA) i nieparametryczne (Friedman). Jeśli są znaczące, chcemy dowiedzieć się, którzy klasyfikatorzy różnią się w zadaniu post-hoc.

Moje pytanie jest dwojakie:

1) Czy korekta wartości p po testach wielokrotnych porównań jest w ogóle konieczna? Niemiecka strona Wikipedii na „Alphafehler Kumulierung” mówi, że problem występuje tylko wtedy, gdy testowanych jest wiele hipotez na tych samych danych. Porównując klasyfikatory (1,2), (1,3), (2,3), dane tylko częściowo się pokrywają. Czy nadal konieczne jest poprawienie wartości p?

2) Korekta wartości p jest często stosowana po testach parami z testem t. Czy jest to również konieczne podczas wykonywania specjalistycznych testów post hoc, takich jak test Nemenyi (nieparametryczny) lub test HSD Tukeya? Ta odpowiedź brzmi „nie” dla HSD Tukeya: Czy test HSD Tukey jest prawidłowy dla wielu porównań? . Czy istnieje reguła, czy muszę to sprawdzać przy każdym potencjalnym teście post-hoc?

Dzięki!

multiple-comparisons bonferroni tukey-hsd

— Chris
źródło

Czemu wykonywania zarówno testów ANOVA i Friedmana?

— Alexis,

Chodzi o zautomatyzowane ramy testowania, które powinny zapewnić recenzentowi zarówno parametryczną, jak i nieparametryczną alternatywę, jeśli założenia parametryczne nie zostaną spełnione.

— Chris

O wspomnianych testach zbiorczych: (A) jeśli twoje grupy danych są niezależne, powinieneś użyć testu ANOVA (parametryczna) lub Kruskala-Wallisa (nieparametryczna); (B) jeśli twoje grupy są zależne (np. Powtarzane miary), powinieneś użyć testu ANOVA z powtarzanymi pomiarami (parametryczny) lub Friedmana (nieparametryczny). (Klasyczna) ANOVA i test Friedmana, ponieważ ich alternatywa nie brzmi poprawnie.

— GegznaV,

Odpowiedź na pytanie 1
Musisz uwzględnić wielokrotne porównania, jeśli zależy Ci na prawdopodobieństwie popełnienia błędu typu I. Prosta kombinacja eksperymentu metafora / myśl może pomóc:

Wyobraź sobie, że chcesz wygrać na loterii. Co dziwne, ta loteria daje 0,05 szansy na wygraną (1 na 20). M to koszt losu w tej loterii, co oznacza, że oczekiwany zwrot za pojedyncze połączenie loterii wynosi M / 20. Teraz jeszcze dziwniejsze, wyobraź sobie, że z nieznanych przyczyn ten koszt, M , pozwala ci mieć tyle losów na loterię, ile chcesz (lub przynajmniej więcej niż dwa). Myśląc sobie „im więcej grasz, tym więcej wygrywasz”, kupujesz kupony biletów. Oczekiwany zwrot z loterii nie wynosi już M / 20, ale jest nieco większy. Teraz zamień „wygrywając na loterii” na „popełnianie błędu typu I.”

Jeśli nie przejmujesz się błędami i nie dbasz o ludzi wielokrotnie i kpiąco kierujących twoją uwagę na pewną kreskówkę o żelkach , śmiało i nie dostosowuj się do wielu porównań.

Problem „tych samych danych” pojawia się w rodzinnych metodach korekcji błędów (np. Bonferroni, Holm-Sidák itp.), Ponieważ pojęcie „rodziny” jest nieco niejasne. Jednak metody fałszywego wskaźnika wykrywalności (np. Benjamini i Hochberg, Benjamini i Yeuketeli itp.) Mają właściwość polegającą na tym, że ich wyniki są wiarygodne w różnych grupach wnioskowania.

$\alpha$

— Alexis
źródło

+1 za kompleksową i pełną humoru odpowiedź (i za odniesienie do xkcd). W szczególności poradziłeś sobie z moim jeszcze niezweryfikowanym pytaniem, czy istnieje różnica między „testem Bonferroniego” a „korektą Bonferroniego”. Czy mógłbyś jednak wyjaśnić problem wielokrotnych porównań w kontekście mojego opisu problemu? Rozumiem, że jeden klasyfikator jest jak grupa terapeutyczna bez komiksu bez / niebiesko / zielono / ... żelków.

— Chris

p

$p$

p

$p$

Myślę, że to w porządku, dziękuję bardzo! Może zająć mi więcej czasu, aby zastosować przykład loterii do mojego przypadku użycia, ale wpadłem na pomysł.

— Chris

@Chris rozumieją, że loteria była tylko metaforą. Jeśli potrzebujesz pomocy w stosowaniu metod FWER lub FDR, sprawdź wpisy w Wikipedii, wyszukaj powiązane pytania tutaj, a może zadaj nowe pytanie na ten temat. :)

— Alexis,