Zamieszanie z częstością fałszywych odkryć i wielokrotnymi testami (na Colquhoun 2014)

Przeczytałem ten wielki artykuł Davida Colquhouna: Badanie współczynnika fałszywych odkryć i błędnej interpretacji wartości p (2014). Zasadniczo wyjaśnia, dlaczego współczynnik fałszywych odkryć (FDR) może wynosić nawet chociaż kontrolujemy błąd typu I za pomocą . $30\%$ $\alpha=0.05$

Nadal jednak nie jestem pewien, co się stanie, jeśli zastosuję kontrolę FDR w przypadku wielokrotnych testów.

Powiedzmy, że wykonałem test dla każdej z wielu zmiennych i obliczyłem wartości stosując procedurę Benjaminiego-Hochberga. Mam jedną zmienną, która jest znacząca przy . Pytam, jaki jest FDR dla tego znaleziska? $q$ $q=0.049$

Czy mogę bezpiecznie założyć, że na dłuższą metę, jeśli przeprowadzam taką analizę regularnie, FDR nie wynosi , ale poniżej , ponieważ użyłem Benjamini-Hochberg? To wydaje się błędne, powiedziałbym, że wartość odpowiada wartości w pracy Colquhouna, a jego rozumowanie również tutaj ma zastosowanie, tak więc stosując próg wynoszący ryzykuję „oszukaniem samego siebie” (jako Colquhoun to ujmuje) w przypadków. Próbowałem jednak wyjaśnić to bardziej formalnie i nie udało mi się. $30\%$ $5\%$ $q$ $p$ $q$ $0.05$ $30\%$

— styczeń
źródło

Hej, stycznia, zastanawiam się, dlaczego zaoferowałbyś tak dużą nagrodę (250), a potem nigdy nie wracasz, by ją przyznać i / lub sprawdzić odpowiedzi! Mam nadzieję że masz się dobrze.

— ameba mówi Przywróć Monikę

Dwa manuskrypty spadły na mnie jak tona cegieł i zupełnie o tym zapomniałem.

— styczeń

Odpowiedzi:

Zdarza się, że zbiegiem okoliczności przeczytałem ten sam artykuł zaledwie kilka tygodni temu. Colquhoun wspomina o wielu porównaniach (w tym Benjamini-Hochberg) w rozdziale 4, kiedy przedstawia problem, ale uważam, że nie wyjaśnia on wystarczająco jasno problemu - więc nie jestem zaskoczony widząc twoje zamieszanie.

Ważne jest, aby zdać sobie sprawę, że Colquhoun mówi o sytuacji bez wielu korekt porównawczych. Można zrozumieć pracę Colquhoun jako przyjmującą perspektywę czytelnika: w istocie pyta on, jakiego współczynnika fałszywych odkryć (FDR) może się spodziewać, gdy czyta literaturę naukową, a to oznacza, jaki jest oczekiwany FDR, gdy nie dokonano wielu korekt porównawczych. Podczas przeprowadzania wielu testów statystycznych w jednym badaniu, np. W jednej pracy, można wziąć pod uwagę wiele porównań. Ale nikt nigdy nie dostosowuje się do wielu porównań między papierami .

Jeśli faktycznie kontrolujesz FDR, np. Postępując zgodnie z procedurą Benjamini-Hochberg (BH), to będzie on kontrolowany. Problem polega na tym, że przeprowadzenie procedury BH osobno w każdym badaniu nie gwarantuje ogólnej kontroli FDR.

Czy mogę bezpiecznie założyć, że na dłuższą metę, jeśli przeprowadzam taką analizę regularnie, FDR nie wynosi , ale poniżej , ponieważ użyłem Benjamini-Hochberg? $30\%$ $5\%$

Nie. Jeśli zastosujesz procedurę BH w każdym artykule, ale niezależnie w każdym ze swoich artykułów, możesz zasadniczo interpretować swoje wartości skorygowane o BH jako normalne wartości , a to, co mówi Colquhoun, nadal obowiązuje. $p$ $p$

Uwagi ogólne

$100\%$ $30\%$

Myślę, że ten artykuł jest w większości rozsądny, ale nie podoba mi się, że niektóre stwierdzenia wydają się zbyt odważne. Np. Pierwsze zdanie streszczenia to:

$p=0.05$ $30\%$

Jest to sformułowane zbyt mocno i może faktycznie wprowadzać w błąd.

— ameba mówi Przywróć Monikę
źródło

To prawda, że przeszukiwałem papier dość szybko, ale wydaje mi się, że w gruncie rzeczy powtarzał on dobrze znane przekonanie, że łatwo jest znaleźć fałszywe efekty przy dużych próbkach (np. Rysunek 1). Co nie znaczy, że nie ma to znaczenia, ale raczej uważam, że powinna mieć inną (i mniej odważnie) interpretację niż autor.

— Ryan Simmons,

Nie jestem pewien, dlaczego @RyanSimmons mówi, że „zasadniczo powtarzałem dobrze znane przekonanie, że łatwo jest znaleźć fałszywe efekty przy dużych próbkach”. Nie miało to nic wspólnego z dużymi próbkami! Naprawdę chciałbym wyjaśnić, dlaczego uważa, że artykuł powinien mieć „inną (i mniej odważnie) interpretację”.

— David Colquhoun,

„Ale nikt nigdy nie dostosowuje się do wielu porównań w różnych artykułach. Byłoby to również prawie niemożliwe”. Pomyślałem, że jedną z zalet korekty fałszywego wskaźnika wykrycia w porównaniu z korektami wskaźnika błędu rodzinnego jest to, że podczas gdy ta ostatnia wymaga definicji rodziny , ta pierwsza jest skalowalna w dowolnej liczbie porównań?

— Alexis,

p \leq α

$p\le \alpha$

p

$p$

Cóż, to, co opisujesz, z pewnością nie jest procedurą wielokrotnego porównywania. Jednak wykonanie metod dopasowania opartych na FDR, powiedzmy 5 testów, a następnie dodanie 20 więcej do tego zestawu 10 i wykonanie tej samej metody ponownie zachowuje prawdopodobieństwo odrzucenia w ramach FDR, ale te prawdopodobieństwa odrzucenia zmieniają się w ramach FWER. Dostosowanie Bonferroni Dunna stanowi dość dramatyczny przykład.

— Alexis,

Benjamini i Hochberg definiują współczynnik fałszywych odkryć w ten sam sposób, co ja, jako część pozytywnych testów, które są fałszywie dodatnie. Jeśli więc zastosujesz ich procedurę do wielu porównań, odpowiednio kontrolujesz FDR. Warto jednak zauważyć, że w metodzie BH istnieje całkiem sporo wariantów. Seminaria Benjamini w Berkeley są na Youtube i warto je obejrzeć:

Część I: https://www.youtube.com/watch?v=oONHlua2gBY
Część II: https://www.youtube.com/watch?v=inUr5I5WKAM

Nie jestem pewien, dlaczego @amoeba mówi „Jest to sformułowane zbyt mocno i może wprowadzać w błąd”. Chciałbym wiedzieć, dlaczego on / ona tak myśli. Najbardziej przekonujący argument pochodzi z symulowanych testów t (sekcja 6). To naśladuje to, co robi prawie każdy w praktyce, i pokazuje, że jeśli zaobserwujesz P blisko 0,047 i twierdzisz, że dokonałeś odkrycia, będziesz w błędzie przez co najmniej 26% czasu. Co może pójść źle?

Oczywiście nie powinienem opisywać tego jako minimum. Otrzymujesz to, jeśli zakładasz, że istnieje 50% szansy na realny efekt. Oczywiście, jeśli założysz, że większość twoich hipotez jest z góry poprawna, możesz uzyskać niższy współczynnik FDR niż 26%, ale czy możesz sobie wyobrazić wesołość, która powitałaby twierdzenie, że dokonałeś odkrycia na podstawie założenia że masz 90% pewności z góry, że twój wniosek będzie prawdziwy. 26% to minimalny wskaźnik FDR, biorąc pod uwagę, że nie jest rozsądną podstawą do wnioskowania o jakiekolwiek wcześniejsze prawdopodobieństwo większe niż 0,5.

Biorąc pod uwagę, że przeczucia często nie stoją podczas testowania, może być tak, że istnieje tylko 10% szansa na spełnienie jakiejkolwiek szczególnej hipotezy, aw takim przypadku FDR byłby katastrofalny 76%.

Prawdą jest, że wszystko to zależy od hipotezy zerowej, zgodnie z którą istnieje zerowa różnica (tzw. Punkt zerowy). Inne opcje mogą dać różne wyniki. Ale zerową wartością jest to, czego prawie wszyscy używają w prawdziwym życiu (choć może nie zdają sobie z tego sprawy). Co więcej, wydaje mi się, że punkt null jest całkowicie odpowiedni do użycia. Czasami kwestionuje się, że prawdziwe różnice nigdy nie są dokładnie zerowe. Nie zgadzam się. Chcemy powiedzieć, czy nie nasze wyniki można odróżnić od przypadku, w którym obie grupy otrzymują identyczne leczenie, więc prawdziwa różnica wynosi dokładnie zero. Jeśli uznamy, że nasze dane nie są zgodne z tym widokiem, przystępujemy do oszacowania wielkości efektu. i w tym momencie dokonujemy osobnego osądu, czy efekt, choć realny, jest wystarczająco duży, aby był ważny w praktyce.Blog Deborah Mayo .

@amoeba Dziękuję za odpowiedź.

Dyskusja na blogu Mayo pokazuje przede wszystkim, że Mayo się ze mną nie zgadza, chociaż przynajmniej nie wyjaśniła mi dlaczego. Stephen Senn słusznie wskazuje, że możesz uzyskać inną odpowiedź, jeśli postulujesz inną wcześniejszą dystrybucję. Wydaje mi się to interesujące tylko dla subiektywnych Bayesian.

Jest to z pewnością nieistotne dla codziennej praktyki, która zawsze zakłada punkt zerowy. I jak wyjaśniłem, wydaje mi się to całkowicie rozsądną rzeczą do zrobienia.

Wielu profesjonalnych statystyk doszło do wniosków podobnych do moich. Spróbuj Sellke & Berger i Valen Johnson (referencje w mojej pracy). W moich roszczeniach nie ma nic bardzo kontrowersyjnego (ani bardzo oryginalnego).

Twój drugi punkt, dotyczący zakładania wcześniejszego 0,5, nie wydaje mi się wcale założeniem. Jak wyjaśniłem powyżej, wszystko powyżej 0,5 byłoby w praktyce niedopuszczalne. A wszystko poniżej 0,5 powoduje, że współczynnik fałszywych odkryć jest jeszcze wyższy (np. 76%, jeśli wcześniej wynosi 0,1). Dlatego całkowicie uzasadnione jest stwierdzenie, że 26% to minimalny odsetek fałszywych odkryć, którego można się spodziewać, jeśli zaobserwujesz P = 0,047 w jednym eksperymencie.

Zastanawiałem się więcej nad tym pytaniem. Moja definicja FDR jest taka sama jak Benjaminiego - ułamek pozytywnych testów, które są fałszywe. Ale dotyczy to zupełnie innego problemu, interpretacji pojedynczego testu. Z perspektywy czasu byłoby lepiej, gdybym wybrał inny termin.

W przypadku pojedynczego testu B&H pozostawia wartość P bez zmian, więc nie mówi nic o współczynniku fałszywych odkryć w tym sensie, że używam tego terminu.

Oczywiście masz rację. Benjamini i Hochberg oraz inni ludzie, którzy pracują nad wieloma porównaniami, mają na celu jedynie skorygowanie poziomu błędu typu 1. W rezultacie uzyskuje się „prawidłową” wartość P. Jest przedmiotem tych samych problemów, co każda inna wartość P. W moim najnowszym artykule zmieniłem nazwę z FDR na Fałszywe ryzyko pozytywne (FPR), próbując uniknąć tego nieporozumienia.

Napisaliśmy również aplikację internetową do wykonania niektórych obliczeń (po zauważeniu, że niewiele osób pobiera dostarczone przez nas skrypty R). Jest na https://davidcolquhoun.shinyapps.io/3-calcs-final/ Wszystkie opinie na ten temat są mile widziane (najpierw przeczytaj kartę Notatki).

PS Kalkulator internetowy ma teraz nowy (mam nadzieję, że stały) na stronie http://fpr-calc.ucl.ac.uk/ Shiny.io jest łatwy w użyciu, ale bardzo drogi, jeśli ktoś faktycznie korzysta z aplikacji :-(

Wróciłem do tej dyskusji, teraz, gdy mój drugi artykuł na ten temat ma się ukazać w Royal Society Open Science. Jest na https://www.biorxiv.org/content/early/2017/08/07/144337

Zdaję sobie sprawę, że największym błędem, jaki popełniłem w pierwszym artykule, było użycie terminu „wskaźnik fałszywych odkryć (FDR)”. W nowej pracy podkreślam, że nie mówię nic o problemie wielokrotnych porównań. Zajmuję się tylko pytaniem, jak interpretować wartość P zaobserwowaną w jednym bezstronnym teście.

W najnowszej wersji odnoszę się do prawdopodobieństwa, że wynik jest wynikiem fałszywie dodatniego ryzyka (FPR), a nie FDR, w nadziei na zmniejszenie zamieszania. Opowiadam się również za odwrotnym podejściem bayesowskim - określ wcześniejsze prawdopodobieństwo, które byłoby potrzebne do zapewnienia FPR, powiedzmy, 5%. Jeśli zaobserwujesz P = 0,05, dochodzi to do 0,87. Innymi słowy, przed wykonaniem eksperymentu musiałbyś być prawie (87%) pewien, że wystąpił prawdziwy efekt, aby osiągnąć FPR wynoszący 5% (co nadal większość osób błędnie uważa, p = 0,05).

— David Colquhoun
źródło

Drogi Davidzie, witaj w CrossValidated i dziękuję za dołączenie! Wygląda na to, że zgadzamy się co do pierwotnego pytania ze stycznia: FDR może być kontrolowane tylko przez ogólną procedurę BH; jeśli BH jest stosowane w każdym artykule osobno, wówczas twoje argumenty nadal mają zastosowanie. Jeśli tak, to rozwiązuje pierwotne pytanie. Jeśli chodzi o mój komentarz na temat twoich „zbyt silnych” sformułowań: po przeczytaniu 147 komentarzy na blogu Mayo waham się rozpocząć kolejną dyskusję. Jak napisałem, w większości zgadzam się z pańską pracą, a moje zastrzeżenia dotyczyły tylko niektórych sformułowań. [cd.]

— Amoeba mówi: Przywróć Monikę

[...] Pierwsze zdanie w streszczeniu jest „zbyt mocne” dokładnie z powodów, które tu wymieniłeś: np. Zakłada punkt zero i przyjmuje 0,5 wcześniej, ale brzmi tak, jakby nic nie zakładało (ale rozumiem, że ty próbował być prowokujący). Ogromna dyskusja na blogu Mayo pokazuje, że wiele osób nie zgadza się, że te założenia są uzasadnione w praktyce naukowej. Mam również własne zastrzeżenia, ale zgadzam się z tobą, że założenia te mogą dokładnie opisać niektóre dziedziny nauki. A jeśli tak, te pola mają duży problem, tak.

— ameba mówi Przywróć Monikę

Duża część zamieszania polega na tym, że pomimo swoich przeciwnych komentarzy, Colquhoun NIE definiuje FDR w taki sam sposób, jak Benjamini-Hochberg. To niefortunne, że Colquhoun próbował wymyślić termin bez uprzedniego sprawdzenia, aby upewnić się, że termin ten nie ma jeszcze ustalonej, innej definicji. Co gorsza, Colquhoun zdefiniował FDR dokładnie w taki sposób, że konwencjonalny FDR był często źle interpretowany.

W swojej odpowiedzi Colquhoun definiuje FDR jako „część pozytywnych testów, które są fałszywe”. Jest to podobne do tego, co Benjamini-Hochberg definiuje jako FDP (odsetek fałszywych odkryć, nie mylić z częstością fałszywych odkryć). Benjamini-Hochberg definiuje FDR jako OCZEKIWANĄ WARTOŚĆ FDP, ze specjalnym zastrzeżeniem, że FDP jest uważany za 0, gdy nie ma pozytywnych testów (warunek, który sprawia, że FDR jest równy FWER, gdy wszystkie wartości zerowe są prawdziwe, i unika niezdefiniowanych wartości z powodu dzielenia przez zero).

Aby uniknąć nieporozumień, proponuję nie martwić się o szczegóły w artykule Colquhoun, a zamiast tego wziąć sobie do głowy punkt dużego obrazu (który wielu innych również uczyniło), że poziom alfa nie odpowiada bezpośrednio proporcji znaczących testów, które to błędy typu I (niezależnie od tego, czy mówimy o istotnych testach w jednym badaniu, czy w kilku badaniach łącznie). Odsetek ten zależy nie tylko od alfa, ale także od mocy i odsetka sprawdzonych hipotez zerowych, które są prawdziwe.

— Bonferroni
źródło