Czy korekty wielokrotnych porównań są konieczne dla nieformalnych / wizualnych „wielokrotnych porównań”?

9

Mam coś w rodzaju filozoficznego pytania o to, kiedy konieczna jest korekta wielokrotnego porównania.

Pomiar ciągłego zmieniającego się czasu sygnału (w dyskretnych punktach czasowych). Od czasu do czasu zdarzają się osobne zdarzenia i chciałbym ustalić, czy zdarzenia te mają znaczący wpływ na zmierzony sygnał.

Mogę więc wziąć średni sygnał, który następuje po zdarzeniu, i zwykle widzę tam jakiś efekt z pewnym szczytem. Jeśli wybiorę czas tego szczytu i powiem test t, aby ustalić, czy jest on znaczący, a kiedy zdarzenie nie występuje, czy muszę wykonać wielokrotną korektę porównania?

Chociaż kiedykolwiek wykonałem tylko jeden test t (obliczona wartość 1), w początkowej inspekcji wizualnej wybrałem ten, który ma największy potencjalny efekt z (powiedzmy) 15 różnych wykreślonych punktów czasowych po opóźnieniu. Czy muszę wykonać wielokrotną korektę porównania dla tych 15 testów, których nigdy nie przeprowadziłem?

Gdybym nie używał inspekcji wizualnej, ale po prostu testowałem przy każdym opóźnieniu zdarzenia i wybrałem najwyższy, z pewnością musiałbym poprawić. Jestem tylko trochę zdezorientowany, czy muszę czy nie, jeśli wybór „najlepszego opóźnienia” jest dokonywany na podstawie innego kryterium niż sam test (np. Wybór wizualny, najwyższa średnia itp.)

hypothesis-testing multiple-comparisons

— Thrope
źródło

11

Technicznie rzecz biorąc, kiedy dokonujesz wstępnego wyboru miejsca wykonania testu, powinieneś już to poprawić: twoje oczy i mózg już omijają pewne niepewności w danych, których nie bierzesz pod uwagę, jeśli po prostu wykonasz test w tym momencie .

Wyobraź sobie, że twój „szczyt” jest naprawdę płaskowyżem, a ty ręcznie wybierasz różnicę „szczytową”, a następnie przeprowadzasz test na tym, i okazuje się to mało znaczące. Gdyby przeprowadzić test nieco bardziej w lewo lub w prawo, wynik mógłby ulec zmianie. W ten sposób musisz wziąć pod uwagę proces preselekcji: nie masz całkowitej pewności, którą oświadczasz! Jesteś przy użyciu danych zrobić selekcję, dzięki czemu skutecznie wykorzystują tę samą informację dwukrotnie.

Oczywiście w praktyce bardzo trudno jest wyjaśnić coś takiego jak proces zbierania rąk, ale to nie znaczy, że nie powinieneś (lub przynajmniej wziąć / podać wynikowe przedziały ufności / wyniki testu z ziarnem soli).

Wniosek : zawsze wykonuj wiele porównań, jeśli wykonujesz wiele porównań, niezależnie od tego, jak wybrałeś te porównania. Jeśli nie zostały wybrane przed obejrzeniem danych, należy to dodatkowo poprawić.

Uwaga: alternatywą dla korekty ręcznej preselekcji (np. Gdy jest to praktycznie niemożliwe) jest prawdopodobnie podanie wyników, aby w sposób oczywisty zawierały odniesienia do selekcji ręcznej. Ale to chyba nie są „powtarzalne badania”.

— Nick Sabbe
źródło

1

Jednak zawsze wprowadzanie poprawek zwiększa poziom błędu typu II. Jeśli masz wszystkie znaczące wyniki przed korektą, możesz stracić je wszystkie po korekcie, nie biorąc pod uwagę niskich szans na uzyskanie wszystkich znaczących wyników. Może to zależeć od kosztu błędu typu I lub typu II w twoim kontekście.

— Etienne Low-Décarie

Nick udzielił odpowiedzi, którą chciałbym udzielić, gdybym odpowiedział jako pierwszy. Jednak w początkowej konfiguracji ty (mkpitas) powiedziałeś, że jeśli faktycznie wykonałeś 15 testów, nie będziesz musiał dokonywać korekcji wielokrotności. Nie rozumiem, dlaczego tak mówisz. Myślę, że w takim przypadku potrzeba korekty wielokrotności staje się bardziej oczywista. @etienne twój punkt dotyczy korekcji FWER, która jest bardzo rygorystyczna w kontrolowaniu błędu typu I. Jeśli użyjesz FDR, nie poświęcisz tyle mocy.

— Michael R. Chernick

8

Dawno temu, podczas jednej z moich pierwszych lekcji statystyki, czytałem o tym w tekście (myślę, że było to stare wydanie książki Cohena na temat regresji), w której powiedziano „to pytanie, którzy rozsądni ludzie mogą się różnić”.

Nie jest dla mnie jasne, czy ktokolwiek kiedykolwiek musi poprawić wiele porównań, a jeśli tak, to w jakim okresie lub zestawie porównań powinien poprawić. Każdy artykuł? Każda regresja lub ANOVA? Wszystko, co publikują na dany temat? Co z tym, co publikują INNE osoby?

Gdy piszesz w pierwszym wierszu, jest to filozoficzne.

— Peter Flom
źródło

4

Masz rację, że jest pytanie o to, ile porównań jest wykonywanych, ale nie sądzę, że to sugeruje twój wniosek. Rozsądni ludzie mogą się różnić, ponieważ mają różne cele i różne wyceny (funkcje straty) pod kątem możliwych wyników. Jeśli powinieneś korygować wielokrotne porównania, dzieje się tak, ponieważ prowadzi to do lepszej oczekiwanej straty. Jako taka jest to bardzo praktyczna kwestia, a nie tylko „filozofia”, i istnieją racjonalne sposoby jej rozwiązania, na których rozsądni ludzie mogą się zgodzić.

— whuber

2

@ whuber z pewnością masz rację w niektórych sytuacjach. Czasami istnieje sensowna funkcja straty, chociaż często trudno jest ją jednoznacznie określić. Ale innym razem, np. Podczas prac poszukiwawczych, mam problem z dostrzeżeniem, jak możliwa jest jakakolwiek funkcja straty. Oczywiście idea funkcji całej straty odciąga nas od postawy podobnej do Graala p = 0,05, a typowe założenie, że moc = 0,8 lub 0,9 jest wystarczająca, i (według mnie) bardziej sensowne, że ustalamy je na bardziej merytorycznych podstawach.

— Peter Flom

1

Dziękuję za wyjaśnienie zakresu i ducha twojej odpowiedzi, Peter.

— whuber

4

Denerwuję się, gdy ludzie mówią, że testowanie wielokrotności nie ma znaczenia. Widzę to zbyt często wyrażane w badaniach medycznych. Możesz wskazać wiele artykułów, które doszły do błędnych wniosków, ponieważ wielokrotność została zignorowana. Niezwykle ważne jest, aby nie publikować artykułów zawierających błędne wnioski w medycynie, ponieważ wpływa to na sposób leczenia pacjentów i zagrożenia życia. Wielokrotność przyczynia się do stronniczości publikacji (ponieważ gdy problem jest badany wiele razy, publikowane są tylko badania o znaczących wynikach), co jest poważnym problemem w metaanalizie,

— Michael R. Chernick

1

@MichaelChernick, zgadzam się - to bardzo problematyczne, gdy ludzie ignorują wiele poprawek testowych. Myślę jednak, że Peter porusza dobrą sprawę - jaki powinien być zakres wielokrotnych testów? Wszystkie testy wykonane w jednym dokumencie? Wszystkie testy wykonane przy użyciu jednego zestawu danych? Wszystkie testy wykonane od początku czasu? Wydaje się, że nie ma jednoznacznej odpowiedzi.

— Makro

4

Jeśli próbujesz podejmować jednorazowe decyzje dotyczące rzeczywistości i chcesz kontrolować szybkość, z jaką fałszywie odrzucasz hipotezę zerową, wówczas użyjesz testu istotności hipotezy zerowej (NHST) i będziesz chciał użyć korekty do wielu porównań. Jednak, jak zauważa Peter Flom w swojej odpowiedzi, nie jest jasne, jak zdefiniować zestaw porównań, w odniesieniu do których zastosować korektę. Najłatwiejszym wyborem jest zestaw porównań zastosowany do danego zbioru danych, i jest to najczęstsze podejście.

Jednak nauka jest prawdopodobnie najlepiej pojmowana jako kumulatywny system, w którym jednorazowe decyzje nie są konieczne i w rzeczywistości służą jedynie zmniejszeniu wydajności gromadzenia dowodów (redukując uzyskane dowody do jednego kawałka informacji). Zatem jeśli zastosujemy właściwie naukowe podejście do analizy statystycznej, unikając NHST dla narzędzi takich jak iloraz prawdopodobieństwa (być może również podejścia Bayesa), wówczas „problem” wielokrotnych porównań znika.

— Mike Lawrence
źródło

1

Możliwą alternatywą dla korekty, w zależności od pytania, jest sprawdzenie istotności sumy wartości p. Możesz nawet ukarać się za test, którego nie wykonano, dodając wysokie wartości p.

Można zastosować rozszerzenia (które nie wymagają niezależności) metody Fishera (wymagające niezależności testu).

Na przykład. Metoda Kosta

— Etienne Low-Décarie
źródło

Są to przykłady procedur stosowanych w metaanalizie, gdy poszczególne badania dostarczają jedynie wartości p lub danych nie można połączyć, ale w każdym badaniu obliczono wartość p. Również metoda kombinacji Fishera i odwrotna normalna to sposoby konstruowania reguł zatrzymywania w projektach adaptacyjnych.

— Michael R. Chernick

1

Jedną bardzo ważną rzeczą do zapamiętania jest to, że wielokrotna korekta testowania zakłada niezależne testy. Jeśli dane, które analizujesz, nie są niezależne, sprawy stają się nieco bardziej skomplikowane niż po prostu korekta liczby wykonanych testów, musisz wziąć pod uwagę korelację między analizowanymi danymi lub Twoja korekta będzie prawdopodobnie zbyt konserwatywna i będziesz mają wysoki poziom błędu typu II. Przekonałem się, że wzajemne sprawdzanie poprawności, testy permutacyjne lub ładowanie początkowe mogą być skutecznymi sposobami radzenia sobie z wieloma porównaniami, jeśli są właściwie stosowane. Inni wspominali o stosowaniu FDR, ale może to dawać niepoprawne wyniki, jeśli w twoich danych jest dużo nie-niezależności, ponieważ zakłada, że wartości p są jednolite we wszystkich testach poniżej wartości zerowej.

— Matt
źródło

2

Witamy na stronie, Matt. Jeśli chodzi o zdanie wstępne: Jedną bardzo ważną rzeczą do zapamiętania jest to, że wielokrotna korekta testu zakłada niezależne testy. Zauważ, że jest to prawdą w przypadku niektórych procedur korekty wielokrotnego testowania, ale na pewno nie wszystkie. Na przykład najprostszy ze wszystkich (Bonferroni) nie zakłada założenia niezależności i rzeczywiście jest dość nieefektywny, jeśli testy faktycznie są niezależne! :-) Również w ustawieniu dystrybucji ciągłej (marginalna) dystrybucja pojedynczego

p

$p$ -wartość będzie jednolita pod wartością zerową; możesz rozważyć edycję w celu wyjaśnienia swoich uwag.

— kardynał