Benjamini i Hochberg definiują współczynnik fałszywych odkryć w ten sam sposób, co ja, jako część pozytywnych testów, które są fałszywie dodatnie. Jeśli więc zastosujesz ich procedurę do wielu porównań, odpowiednio kontrolujesz FDR. Warto jednak zauważyć, że w metodzie BH istnieje całkiem sporo wariantów. Seminaria Benjamini w Berkeley są na Youtube i warto je obejrzeć:
Nie jestem pewien, dlaczego @amoeba mówi „Jest to sformułowane zbyt mocno i może wprowadzać w błąd”. Chciałbym wiedzieć, dlaczego on / ona tak myśli. Najbardziej przekonujący argument pochodzi z symulowanych testów t (sekcja 6). To naśladuje to, co robi prawie każdy w praktyce, i pokazuje, że jeśli zaobserwujesz P blisko 0,047 i twierdzisz, że dokonałeś odkrycia, będziesz w błędzie przez co najmniej 26% czasu. Co może pójść źle?
Oczywiście nie powinienem opisywać tego jako minimum. Otrzymujesz to, jeśli zakładasz, że istnieje 50% szansy na realny efekt. Oczywiście, jeśli założysz, że większość twoich hipotez jest z góry poprawna, możesz uzyskać niższy współczynnik FDR niż 26%, ale czy możesz sobie wyobrazić wesołość, która powitałaby twierdzenie, że dokonałeś odkrycia na podstawie założenia że masz 90% pewności z góry, że twój wniosek będzie prawdziwy. 26% to minimalny wskaźnik FDR, biorąc pod uwagę, że nie jest rozsądną podstawą do wnioskowania o jakiekolwiek wcześniejsze prawdopodobieństwo większe niż 0,5.
Biorąc pod uwagę, że przeczucia często nie stoją podczas testowania, może być tak, że istnieje tylko 10% szansa na spełnienie jakiejkolwiek szczególnej hipotezy, aw takim przypadku FDR byłby katastrofalny 76%.
Prawdą jest, że wszystko to zależy od hipotezy zerowej, zgodnie z którą istnieje zerowa różnica (tzw. Punkt zerowy). Inne opcje mogą dać różne wyniki. Ale zerową wartością jest to, czego prawie wszyscy używają w prawdziwym życiu (choć może nie zdają sobie z tego sprawy). Co więcej, wydaje mi się, że punkt null jest całkowicie odpowiedni do użycia. Czasami kwestionuje się, że prawdziwe różnice nigdy nie są dokładnie zerowe. Nie zgadzam się. Chcemy powiedzieć, czy nie nasze wyniki można odróżnić od przypadku, w którym obie grupy otrzymują identyczne leczenie, więc prawdziwa różnica wynosi dokładnie zero. Jeśli uznamy, że nasze dane nie są zgodne z tym widokiem, przystępujemy do oszacowania wielkości efektu. i w tym momencie dokonujemy osobnego osądu, czy efekt, choć realny, jest wystarczająco duży, aby był ważny w praktyce.Blog Deborah Mayo .
@amoeba Dziękuję za odpowiedź.
Dyskusja na blogu Mayo pokazuje przede wszystkim, że Mayo się ze mną nie zgadza, chociaż przynajmniej nie wyjaśniła mi dlaczego. Stephen Senn słusznie wskazuje, że możesz uzyskać inną odpowiedź, jeśli postulujesz inną wcześniejszą dystrybucję. Wydaje mi się to interesujące tylko dla subiektywnych Bayesian.
Jest to z pewnością nieistotne dla codziennej praktyki, która zawsze zakłada punkt zerowy. I jak wyjaśniłem, wydaje mi się to całkowicie rozsądną rzeczą do zrobienia.
Wielu profesjonalnych statystyk doszło do wniosków podobnych do moich. Spróbuj Sellke & Berger i Valen Johnson (referencje w mojej pracy). W moich roszczeniach nie ma nic bardzo kontrowersyjnego (ani bardzo oryginalnego).
Twój drugi punkt, dotyczący zakładania wcześniejszego 0,5, nie wydaje mi się wcale założeniem. Jak wyjaśniłem powyżej, wszystko powyżej 0,5 byłoby w praktyce niedopuszczalne. A wszystko poniżej 0,5 powoduje, że współczynnik fałszywych odkryć jest jeszcze wyższy (np. 76%, jeśli wcześniej wynosi 0,1). Dlatego całkowicie uzasadnione jest stwierdzenie, że 26% to minimalny odsetek fałszywych odkryć, którego można się spodziewać, jeśli zaobserwujesz P = 0,047 w jednym eksperymencie.
Zastanawiałem się więcej nad tym pytaniem. Moja definicja FDR jest taka sama jak Benjaminiego - ułamek pozytywnych testów, które są fałszywe. Ale dotyczy to zupełnie innego problemu, interpretacji pojedynczego testu. Z perspektywy czasu byłoby lepiej, gdybym wybrał inny termin.
W przypadku pojedynczego testu B&H pozostawia wartość P bez zmian, więc nie mówi nic o współczynniku fałszywych odkryć w tym sensie, że używam tego terminu.
Oczywiście masz rację. Benjamini i Hochberg oraz inni ludzie, którzy pracują nad wieloma porównaniami, mają na celu jedynie skorygowanie poziomu błędu typu 1. W rezultacie uzyskuje się „prawidłową” wartość P. Jest przedmiotem tych samych problemów, co każda inna wartość P. W moim najnowszym artykule zmieniłem nazwę z FDR na Fałszywe ryzyko pozytywne (FPR), próbując uniknąć tego nieporozumienia.
Napisaliśmy również aplikację internetową do wykonania niektórych obliczeń (po zauważeniu, że niewiele osób pobiera dostarczone przez nas skrypty R). Jest na https://davidcolquhoun.shinyapps.io/3-calcs-final/ Wszystkie opinie na ten temat są mile widziane (najpierw przeczytaj kartę Notatki).
PS Kalkulator internetowy ma teraz nowy (mam nadzieję, że stały) na stronie http://fpr-calc.ucl.ac.uk/
Shiny.io jest łatwy w użyciu, ale bardzo drogi, jeśli ktoś faktycznie korzysta z aplikacji :-(
Wróciłem do tej dyskusji, teraz, gdy mój drugi artykuł na ten temat ma się ukazać w Royal Society Open Science. Jest na https://www.biorxiv.org/content/early/2017/08/07/144337
Zdaję sobie sprawę, że największym błędem, jaki popełniłem w pierwszym artykule, było użycie terminu „wskaźnik fałszywych odkryć (FDR)”. W nowej pracy podkreślam, że nie mówię nic o problemie wielokrotnych porównań. Zajmuję się tylko pytaniem, jak interpretować wartość P zaobserwowaną w jednym bezstronnym teście.
W najnowszej wersji odnoszę się do prawdopodobieństwa, że wynik jest wynikiem fałszywie dodatniego ryzyka (FPR), a nie FDR, w nadziei na zmniejszenie zamieszania. Opowiadam się również za odwrotnym podejściem bayesowskim - określ wcześniejsze prawdopodobieństwo, które byłoby potrzebne do zapewnienia FPR, powiedzmy, 5%. Jeśli zaobserwujesz P = 0,05, dochodzi to do 0,87. Innymi słowy, przed wykonaniem eksperymentu musiałbyś być prawie (87%) pewien, że wystąpił prawdziwy efekt, aby osiągnąć FPR wynoszący 5% (co nadal większość osób błędnie uważa, p = 0,05).