Myślę, że ważne jest, aby pamiętać, że różne metody są dobre dla różnych rzeczy, a testowanie istotności to nie wszystko, co istnieje w świecie statystyki.
1 i 3) EB prawdopodobnie nie jest prawidłową procedurą testowania hipotez, ale też nie jest.
Ważność może być wiele rzeczy, ale mówisz o Rygorystycznym Projekcie Eksperymentalnym, więc prawdopodobnie omawiamy test hipotez, który powinien pomóc ci podjąć właściwą decyzję z określoną częstotliwością długoterminową. Jest to ściśle dychotomiczny reżim typu tak / nie, który jest najbardziej użyteczny dla osób, które muszą podjąć decyzję typu tak / nie. Bardzo mądrzy ludzie wykonują wiele klasycznych prac. Te metody mają niezłą teoretyczną poprawność w granicach, zakładając, że wszystkie twoje założenia są spełnione, i c. Jednak EB z pewnością nie był do tego przeznaczony. Jeśli chcesz maszynerię klasycznych metod NHST, trzymaj się klasycznych metod NHST.
2) EB najlepiej stosować w problemach, w których szacuje się wiele podobnych, zmiennych wielkości.
Sam Efron otwiera swoją książkę Wnioskowanie na dużą skalę, wymieniając trzy różne epoki historii statystyki, wskazując, że obecnie jesteśmy w
[era] masowej produkcji naukowej, w której nowe technologie charakteryzowane przez mikromacierze pozwalają pojedynczemu zespołowi naukowców na tworzenie zbiorów danych o wielkości Quetelet. Ale teraz zalew danych towarzyszy potopowi pytań, być może tysiącom szacunków lub testów hipotez, za które statystycy odpowiadają razem; wcale nie to, co mieli na myśli mistrzowie klasyczni.
On kontynuuje:
Ze swej natury empiryczne argumenty Bayesa łączą elementy częste i bayesowskie w analizie problemów powtarzającej się struktury. Powtarzane struktury są właśnie tym, co przewyższa naukową masową produkcję, np. Poziomy ekspresji porównujące chorych i zdrowych osobników dla tysięcy genów jednocześnie za pomocą mikromacierzy.
Być może najbardziej udany niedawne stosowanie EB jest limma
, dostępny na BioConductor . Jest to pakiet R z metodami oceny różnicowej ekspresji (tj. Mikromacierzy) między dwiema badanymi grupami w dziesiątkach tysięcy genów. Smyth pokazuje, że ich metody EB dają statystykę t o większym stopniu swobody niż gdybyś miał obliczyć zwykłe statystyki t genów. Zastosowanie EB tutaj „jest równoważne zmniejszeniu szacowanych odchyleń próbki w kierunku zbiorczego oszacowania, co prowadzi do znacznie bardziej stabilnego wnioskowania, gdy liczba tablic jest mała”, co często ma miejsce.
Jak wskazuje Efron powyżej, nie jest to coś, do czego został opracowany klasyczny NHST, a ustawienie jest zwykle bardziej eksploracyjne niż potwierdzające.
4) Zasadniczo można postrzegać EB jako metodę skurczu i może być przydatna wszędzie tam, gdzie skurcz jest przydatny
Powyższy limma
przykład wspomina o kurczeniu się. Charles Stein dał nam zadziwiający wynik, że przy szacowaniu średnich dla trzech lub więcej rzeczy, istnieje estymator, który jest lepszy niż stosowanie obserwowanych średnich, . Estymator Jamesa-Steina ma postać przy czym a jest stałą. Ten estymator zmniejsza obserwowane średnie w kierunku zera, i jest lepszy niż stosowanie w silnym sensie jednakowo niższego ryzyka.X1, . . . , Xkθ^jotS.ja= ( 1 - c / S2)) Xja,S.2)= ∑kj = 1Xjot,doXja
Efron i Morris wykazali podobny wynik kurczenia się w kierunku połączonej średniej i takie właśnie są oceny szacunkowe EB. Poniżej znajduje się przykład, w którym zmniejszyłem wskaźniki przestępczości w różnych miastach metodami EB. Jak widać, bardziej ekstremalne szacunki kurczą się w sporej odległości od średniej. Mniejsze miasta, w których możemy spodziewać się większej wariancji, otrzymują większy skurcz. Czarny punkt reprezentuje duże miasto, które zasadniczo nie uległo skurczowi. Mam kilka symulacji, które pokazują, że te szacunki rzeczywiście mają mniejsze ryzyko niż wykorzystanie zaobserwowanych wskaźników przestępczości MLE.X¯,
Im bardziej podobne ilości zostaną oszacowane, tym bardziej prawdopodobne jest, że skurcz jest przydatny. Książka, do której się odwołujesz, używa wskaźników trafień w baseballu. Morris (1983) wskazuje na kilka innych aplikacji:
- Podział dochodów --- biuro spisu ludności. Szacuje się dochód spisu na mieszkańca dla kilku obszarów.
- Zapewnienie jakości --- Bell Labs. Szacuje liczbę awarii dla różnych okresów.
- Określanie stawek ubezpieczenia. Szacuje ryzyko na narażenie dla grup ubezpieczonych lub dla różnych terytoriów.
- Przyjęcia do szkół prawniczych. Szacuje wagę wyniku LSAT w stosunku do GPA dla różnych szkół.
- Alarmy pożarowe --- NYC. Szacuje częstość fałszywych alarmów dla różnych lokalizacji skrzynek alarmowych.
Są to wszystkie problemy z estymacją równoległą i, o ile wiem, chodzi raczej o dobre przewidywanie, co jest pewną ilością, niż o znalezienie decyzji tak / nie.
Niektóre referencje
- Efron, B. (2012). Wnioskowanie na dużą skalę: empiryczne metody Bayesa do szacowania, testowania i prognozowania (tom 1). Cambridge University Press. Chicago
- Efron, B., i Morris, C. (1973). Reguła estymacji Stein i jej konkurenci - empiryczne podejście Bayesa. Journal of American Statistics Association, 68 (341), 117–130. Chicago
- James, W. i Stein, C. (1961, czerwiec). Oszacowanie z kwadratową stratą. W materiałach z czwartego sympozjum Berkeleya na temat statystyki matematycznej i prawdopodobieństwa (t. 1, nr 1961, s. 361–379). Chicago
- Morris, CN (1983). Parametryczne wnioskowanie Bayesa: teoria i zastosowania. Journal of the American Statistics Association, 78 (381), 47–55.
- Smyth, GK (2004). Modele liniowe i empiryczne metody Bayesa do oceny ekspresji różnicowej w eksperymentach mikromacierzy. Zastosowania statystyczne w genetyce i biologii molekularnej Tom 3, wydanie 1, artykuł 3.