Częściową kwestią jest to, że częstokształtna definicja prawdopodobieństwa nie pozwala na zastosowanie niebanalnego prawdopodobieństwa do wyniku konkretnego eksperymentu, ale tylko do pewnej fikcyjnej populacji eksperymentów, z których ten konkretny eksperyment można uznać za próbkę. Definicja CI jest myląca, ponieważ jest stwierdzeniem o tej (zwykle) fikcyjnej populacji eksperymentów, a nie o konkretnych danych zebranych w danym przypadku. Częścią problemu jest zatem jedna z definicji prawdopodobieństwa: idea prawdziwej wartości leżącej w określonym przedziale z prawdopodobieństwem 95% jest niezgodna z ramami częstych.
Innym aspektem tego problemu jest to, że przy obliczaniu ufności częstych nie wykorzystuje się wszystkich informacji zawartych w konkretnej próbie, istotnych dla ograniczenia prawdziwej wartości statystyki. Moje pytanie „Czy istnieją przykłady, w których wiarygodne przedziały bayesowskie są oczywiście gorsze niż częste przedziały ufności”omawia artykuł Edwina Jaynesa, który zawiera kilka naprawdę dobrych przykładów, które naprawdę podkreślają różnicę między przedziałami ufności a przedziałami wiarygodności. Szczególnie istotny w tej dyskusji jest przykład 5, w którym omówiono różnicę między przedziałem wiarygodnym a przedziałem ufności dla oszacowania parametru skróconego rozkładu wykładniczego (w przypadku problemu w przemysłowej kontroli jakości). W podanym przez niego przykładzie próbka zawiera wystarczającą ilość informacji, aby mieć pewność, że prawdziwa wartość parametru nigdzie nie mieści się w odpowiednio skonstruowanym 90% przedziale ufności!
Niektórym może się to wydawać szokujące, ale powodem tego wyniku jest to, że przedziały ufności i przedziały wiarygodne są odpowiedziami na dwa różne pytania z dwóch różnych interpretacji prawdopodobieństwa.
Przedział ufności jest odpowiedzią na prośbę: „Daj mi przedział, który wspornik prawdziwą wartość parametru w % tych przypadków eksperymentu, który jest powtarzany wiele razy.” Wiarygodny przedział jest odpowiedzią na żądanie: „Daj mi przedział, który zawiera prawdziwą wartość z prawdopodobieństwem p, biorąc pod uwagę konkretną próbkę, którą rzeczywiście zaobserwowałem ” . Aby móc odpowiedzieć na to drugie żądanie, musimy najpierw przyjąć ( ) nowa koncepcja procesu generowania danych lub (b) inna koncepcja samej definicji prawdopodobieństwa. 100 pp
Głównym powodem, dla którego jakikolwiek konkretny przedział ufności 95% nie implikuje 95% szansy na zawarcie średniej, jest to, że przedział ufności jest odpowiedzią na inne pytanie, więc jest właściwą odpowiedzią, gdy odpowiedź na dwa pytania mają to samo rozwiązanie numeryczne.
Krótko mówiąc, wiarygodne i pewne przedziały ufności odpowiadają na różne pytania z różnych perspektyw; oba są przydatne, ale musisz wybrać odpowiedni interwał dla pytania, które faktycznie chcesz zadać. Jeśli chcesz mieć przedział dopuszczający interpretację 95% (późniejszego) prawdopodobieństwa zawarcia prawdziwej wartości, wybierz wiarygodny przedział (a wraz z nim towarzyszącą koncepcję prawdopodobieństwa), a nie przedział ufności. Rzeczą, której nie powinieneś robić, jest przyjęcie innej interpretacji prawdopodobieństwa w interpretacji niż ta zastosowana w analizie.
Dzięki @cardinal za jego udoskonalenia!
Oto konkretny przykład z doskonałej książki Davida MaKaya „Teoria informacji, wnioskowanie i algorytmy uczenia się” (strona 464):
Niech parametrem będącym przedmiotem zainteresowania będzie a dane D , para punktów x 1 i x 2 narysowane niezależnie od następującego rozkładu:θrex1x2)
p ( x | θ ) = ⎧⎩⎨⎪⎪1 / 21 / 20x = θ ,x = θ + 1 ,o t h e r w i s e
Jeśli jest 39 , wtedy możemy spodziewać się zestawy danych ( 39 , 39 ) , ( 39 , 40 ) , ( 40 , 39 ) i ( 40 , 40 ) wszystkie z jednakowym prawdopodobieństwem 1 / 4 . Rozważ przedział ufnościθ39( 39 , 39 )( 39 , 40 )( 40 , 39 )( 40 , 40 )1 / 4
.[ θm i n( D ) , θm a x( D ) ] = [ m i n ( x1, x2)) , m a x ( x1, x2)) ]
Oczywiście jest to prawidłowy 75% przedział ufności, ponieważ jeśli ponownie spróbujesz danych, , wiele razy, skonstruowany w ten sposób przedział ufności będzie zawierał prawdziwą wartość 75% czasu.D = ( x1, x2))
Teraz rozważ dane . W tym przypadku częstym 75% przedziałem ufności wynosiłby [ 29 , 29 ] . Zakładając jednak, że model procesu generowania jest poprawny, θ może w tym przypadku wynosić 28 lub 29 i nie mamy powodu przypuszczać, że 29 jest bardziej prawdopodobne niż 28, więc prawdopodobieństwo późniejsze wynosi p ( θ = 28 | D ) = P ( θ = 29 | D ) = 1 / 2D = ( 29 , 29 )[ 29 , 29 ]θs ( θ = 28 | D ) = P ( θ = 29 | D ) = 1 / 2. Tak więc w tym przypadku częsty przedział ufności nie jest 75% przedziałem wiarygodnym, ponieważ istnieje tylko 50% prawdopodobieństwa, że zawiera on prawdziwą wartość , biorąc pod uwagę to, co możemy wywnioskować o θ z tej konkretnej próbki .θθ
Tak, jest to wymyślony przykład, ale jeśli przedziały ufności i przedziały wiarygodne nie byłyby różne, to nadal byłyby identyczne w wymyślonych przykładach.
Zauważ, że kluczową różnicą jest to, że przedział ufności jest stwierdzeniem, co by się stało, gdybyś powtórzył eksperyment wiele razy, wiarygodny przedział to stwierdzenie, co można wywnioskować z tej konkretnej próbki.