Dlaczego 95% przedział ufności (CI) nie oznacza 95% szansy na zawarcie średniej?


228

Wydaje się, że poprzez różne powiązane pytania tutaj istnieje zgoda, że ​​„95%” części tego, co nazywamy „95% przedziałem ufności”, odnosi się do faktu, że jeśli mielibyśmy dokładnie odtworzyć nasze procedury próbkowania i obliczeń CI wiele razy , 95% tak obliczonych CI zawierałoby średnią populacji. Wydaje się również, że zgoda ta nie jestpozwalają wnioskować z pojedynczego 95% CI, że istnieje 95% szans, że średnia mieści się gdzieś w CI. Nie rozumiem jednak, w jaki sposób ten pierwszy nie implikuje drugiego, o ile wyobrażając sobie, że wiele CI zawiera 95% średniej populacji, nie powinno być naszej niepewności (w odniesieniu do tego, czy nasz rzeczywiście obliczony CI zawiera populację znaczy czy nie) zmusza nas do użycia stopy bazowej wyimaginowanych przypadków (95%) jako naszego oszacowania prawdopodobieństwa, że ​​nasz faktyczny przypadek zawiera CI?

Widziałem posty, które kłócą się w stylu „faktycznie obliczony CI albo zawiera średnią populacji, albo jej nie ma, więc jej prawdopodobieństwo wynosi 1 lub 0”, ale wydaje się, że sugeruje to dziwną definicję prawdopodobieństwa, która jest zależna w nieznanych stanach (np. przyjaciel rzuca uczciwą monetą, ukrywa wynik, a ja nie mogę powiedzieć, że istnieje 50% szans, że to głowa).

Na pewno się mylę, ale nie widzę, gdzie moja logika poszła nie tak ...


4
Przez „przypadek” masz na myśli „prawdopodobieństwo” w sensie technicznym częstokroć czy w bayesowskim sensie subiektywnej wiarygodności? W sensie częstokroć prawdopodobieństwo wystąpienia tylko przypadkowych eksperymentów. Patrzenie na trzy podane (stałe) liczby (prawdziwa średnia, obliczone granice CI) w celu ustalenia ich kolejności (prawdziwa średnia zawarta w CI?) Nie jest przypadkowym eksperymentem. Z tego też powodu część prawdopodobieństwa „faktycznie obliczonego CI albo zawiera średnią populacji, albo jej nie zawiera, więc jej prawdopodobieństwo wynosi 1 lub 0” również jest błędne. Częstotliwościowy model prawdopodobieństwa po prostu nie ma zastosowania w tym przypadku.
karakal

11
To zależy od tego, jak traktujesz teoretyczną średnią. Jeśli jest to zmienna losowa, możesz powiedzieć o prawdopodobieństwie, że wpadnie ona w pewien przedział. Jeśli jest stały, nie możesz. To jest najprostsze wyjaśnienie, które osobiście zamknęło ten problem.
mpiktas

2
Nawiasem mówiąc, natknąłem się na tę rozmowę Thaddeusa Tarpeya: Wszystkie modele mają rację ... większość jest bezużyteczna . Omówił kwestię prawdopodobieństwa, że ​​95% przedział ufności zawiera (s. 81 i nast.)? μ
chl

3
@Nesp: Nie sądzę, aby istniał problem ze stwierdzeniem „Prawdopodobieństwo wynosi zero lub jeden” w odniesieniu do (późniejszego) prawdopodobieństwa, że ​​element CI zawiera (stały) parametr. (To nawet tak naprawdę nie opiera się na żadnej częstej interpretacji prawdopodobieństwa!). Nie opiera się również na „nieznanych stanach”. Takie stwierdzenie odnosi się właśnie do sytuacji, w której otrzymuje się CI na podstawie konkretnej próby. Jest to proste ćwiczenie matematyczne pokazujące, że wszelkie takie prawdopodobieństwo jest banalne, tzn. Przyjmuje wartości z . {0,1}
kardynał

3
@MikeLawrence trzy lata później, czy jesteś zadowolony z definicji przedziału ufności 95% w następujący sposób: „jeśli wielokrotnie pobieramy próbki z populacji i obliczamy przedział ufności 95% po każdej próbce, 95% przedziału ufności zawierałby średnią „. Podobnie jak Ty w 2012 roku, staram się zobaczyć, jak to nie oznacza, że ​​95% przedział ufności ma 95% prawdopodobieństwo, że będzie zawierać średnią. Byłbym zainteresowany, aby zobaczyć, jak postępowało twoje rozumienie przedziału ufności, odkąd zadałeś to pytanie.
luciano

Odpowiedzi:


107

Częściową kwestią jest to, że częstokształtna definicja prawdopodobieństwa nie pozwala na zastosowanie niebanalnego prawdopodobieństwa do wyniku konkretnego eksperymentu, ale tylko do pewnej fikcyjnej populacji eksperymentów, z których ten konkretny eksperyment można uznać za próbkę. Definicja CI jest myląca, ponieważ jest stwierdzeniem o tej (zwykle) fikcyjnej populacji eksperymentów, a nie o konkretnych danych zebranych w danym przypadku. Częścią problemu jest zatem jedna z definicji prawdopodobieństwa: idea prawdziwej wartości leżącej w określonym przedziale z prawdopodobieństwem 95% jest niezgodna z ramami częstych.

Innym aspektem tego problemu jest to, że przy obliczaniu ufności częstych nie wykorzystuje się wszystkich informacji zawartych w konkretnej próbie, istotnych dla ograniczenia prawdziwej wartości statystyki. Moje pytanie „Czy istnieją przykłady, w których wiarygodne przedziały bayesowskie są oczywiście gorsze niż częste przedziały ufności”omawia artykuł Edwina Jaynesa, który zawiera kilka naprawdę dobrych przykładów, które naprawdę podkreślają różnicę między przedziałami ufności a przedziałami wiarygodności. Szczególnie istotny w tej dyskusji jest przykład 5, w którym omówiono różnicę między przedziałem wiarygodnym a przedziałem ufności dla oszacowania parametru skróconego rozkładu wykładniczego (w przypadku problemu w przemysłowej kontroli jakości). W podanym przez niego przykładzie próbka zawiera wystarczającą ilość informacji, aby mieć pewność, że prawdziwa wartość parametru nigdzie nie mieści się w odpowiednio skonstruowanym 90% przedziale ufności!

Niektórym może się to wydawać szokujące, ale powodem tego wyniku jest to, że przedziały ufności i przedziały wiarygodne są odpowiedziami na dwa różne pytania z dwóch różnych interpretacji prawdopodobieństwa.

Przedział ufności jest odpowiedzią na prośbę: „Daj mi przedział, który wspornik prawdziwą wartość parametru w % tych przypadków eksperymentu, który jest powtarzany wiele razy.” Wiarygodny przedział jest odpowiedzią na żądanie: „Daj mi przedział, który zawiera prawdziwą wartość z prawdopodobieństwem p, biorąc pod uwagę konkretną próbkę, którą rzeczywiście zaobserwowałem. Aby móc odpowiedzieć na to drugie żądanie, musimy najpierw przyjąć ( ) nowa koncepcja procesu generowania danych lub (b) inna koncepcja samej definicji prawdopodobieństwa. 100pp

Głównym powodem, dla którego jakikolwiek konkretny przedział ufności 95% nie implikuje 95% szansy na zawarcie średniej, jest to, że przedział ufności jest odpowiedzią na inne pytanie, więc jest właściwą odpowiedzią, gdy odpowiedź na dwa pytania mają to samo rozwiązanie numeryczne.

Krótko mówiąc, wiarygodne i pewne przedziały ufności odpowiadają na różne pytania z różnych perspektyw; oba są przydatne, ale musisz wybrać odpowiedni interwał dla pytania, które faktycznie chcesz zadać. Jeśli chcesz mieć przedział dopuszczający interpretację 95% (późniejszego) prawdopodobieństwa zawarcia prawdziwej wartości, wybierz wiarygodny przedział (a wraz z nim towarzyszącą koncepcję prawdopodobieństwa), a nie przedział ufności. Rzeczą, której nie powinieneś robić, jest przyjęcie innej interpretacji prawdopodobieństwa w interpretacji niż ta zastosowana w analizie.

Dzięki @cardinal za jego udoskonalenia!

Oto konkretny przykład z doskonałej książki Davida MaKaya „Teoria informacji, wnioskowanie i algorytmy uczenia się” (strona 464):

Niech parametrem będącym przedmiotem zainteresowania będzie a dane D , para punktów x 1 i x 2 narysowane niezależnie od następującego rozkładu:θDx1x2

p(x|θ)={1/2x=θ,1/2x=θ+1,0otherwise

Jeśli jest 39 , wtedy możemy spodziewać się zestawy danych ( 39 , 39 ) , ( 39 , 40 ) , ( 40 , 39 ) i ( 40 , 40 ) wszystkie z jednakowym prawdopodobieństwem 1 / 4 . Rozważ przedział ufnościθ39(39,39)(39,40)(40,39)(40,40)1/4

.[θmin(D),θmax(D)]=[min(x1,x2),max(x1,x2)]

Oczywiście jest to prawidłowy 75% przedział ufności, ponieważ jeśli ponownie spróbujesz danych, , wiele razy, skonstruowany w ten sposób przedział ufności będzie zawierał prawdziwą wartość 75% czasu.D=(x1,x2)

Teraz rozważ dane . W tym przypadku częstym 75% przedziałem ufności wynosiłby [ 29 , 29 ] . Zakładając jednak, że model procesu generowania jest poprawny, θ może w tym przypadku wynosić 28 lub 29 i nie mamy powodu przypuszczać, że 29 jest bardziej prawdopodobne niż 28, więc prawdopodobieństwo późniejsze wynosi p ( θ = 28 | D ) = P ( θ = 29 | D ) = 1 / 2D=(29,29)[29,29]θp(θ=28|D)=p(θ=29|D)=1/2. Tak więc w tym przypadku częsty przedział ufności nie jest 75% przedziałem wiarygodnym, ponieważ istnieje tylko 50% prawdopodobieństwa, że ​​zawiera on prawdziwą wartość , biorąc pod uwagę to, co możemy wywnioskować o θ z tej konkretnej próbki .θθ

Tak, jest to wymyślony przykład, ale jeśli przedziały ufności i przedziały wiarygodne nie byłyby różne, to nadal byłyby identyczne w wymyślonych przykładach.

Zauważ, że kluczową różnicą jest to, że przedział ufności jest stwierdzeniem, co by się stało, gdybyś powtórzył eksperyment wiele razy, wiarygodny przedział to stwierdzenie, co można wywnioskować z tej konkretnej próbki.


8
Przedział ufności jest odpowiedzią na pytanie „daj mi przedział, który obejmie prawdziwą wartość statystyki z prawdopodobieństwem p, jeśli eksperyment zostanie powtórzony wiele razy”. Wiarygodny przedział jest odpowiedzią na pytanie „daj mi przedział, który zawiera w nawiasach prawdziwą wartość z prawdopodobieństwem p”. Po pierwsze, stwierdzenie dotyczące częstej interpretacji prawdopodobieństwa pozostawia wiele do życzenia. Być może problem polega na użyciu słowa „ prawdopodobieństwo” w tym zdaniu. Po drugie, uważam, że wiarygodna „definicja” przedziału jest trochę zbyt uproszczona ...
kardynał

7
... i nieco mylące, biorąc pod uwagę charakterystykę, którą nadajesz CI. W podobnym tonie zdanie końcowe ma ten sam problem: jeśli chcesz, aby przedział zawierający prawdziwą wartość 95% czasu, wybierz przedział wiarygodny, a nie przedział ufności. Potoczne użycie „zawiera prawdziwą wartość w 95% przypadków” jest nieco nieprecyzyjne i pozostawia złe wrażenie. Rzeczywiście, mogę przedstawić przekonujący argument (uważam), że takie sformułowanie jest znacznie bliższe definicji definicji IK.
kardynał

11
Żądanie : Przydałby się autor tej odpowiedzi, aby w komentarzach wyraził swoją opinię / powody. Chociaż pytanie to jest nieco bardziej prawdopodobne niż większość prowadzące do długiej dyskusji, nadal przydatne jest udzielanie konstruktywnej informacji zwrotnej osobom udzielającym odpowiedzi; jest to jeden z najłatwiejszych sposobów poprawy ogólnej zawartości witryny. Twoje zdrowie.
kardynał

9
Dikran, tak, zgadzam się. To było częścią tego, co starałem się wyciągnąć nieco więcej w edycjach. Radykalny częsty (który z pewnością nie jestem ) mógłby prowokować: „CI jest konserwatywny, ponieważ projektuję przedział wcześniej, tak że bez względu na to, jakie konkretne dane zaobserwuję, parametr zostanie przechwycony w przedziale 95% wiarygodnego przedziału czasu wynika z powiedzenia „Ups, ktoś po prostu rzucił mi jakieś dane na kolana. Jakie jest prawdopodobieństwo, że przedział, który tworzę z tych danych zawiera prawdziwy parametr?” „To jest trochę niesprawiedliwe w tym drugim przypadku… .
Cardinal

2
Dikran, wszyscy pochodzimy z różnych środowisk, co pomaga wzbogacić nasze zrozumienie. Jeśli chodzi o prawdopodobieństwo i pokrewne pojęcia, być może najbardziej błyskotliwy myśliciel, z którym miałem przyjemność współpracować, nie miał formalnej statystyki ani (matematycznego) prawdopodobieństwa; był inżynierem.
kardynał

28

W statystyce częstokroć prawdopodobieństwo dotyczy zdarzeń na dłuższą metę. Po prostu nie dotyczą pojedynczego wydarzenia po jego zakończeniu. Przeprowadzenie eksperymentu i obliczenie CI jest właśnie takim wydarzeniem.

Chciałeś porównać to z prawdopodobieństwem, że ukryta moneta jest głową, ale nie możesz. Możesz to powiązać z czymś bardzo bliskim. Jeśli twoja gra miała regułę, w której musisz podać po odwróceniu „głów”, to prawdopodobieństwo, że będziesz poprawny na dłuższą metę, wynosi 50% i jest to analogiczne.

Po uruchomieniu eksperymentu i zebraniu danych masz coś podobnego do rzeczywistego rzutu monetą. Proces eksperymentu przypomina rzut monetą, ponieważ generuje μalbo nie tylko to, że moneta jest główką, albo nie. Po odwróceniu monety, bez względu na to, czy ją widzisz, czy nie, nie ma prawdopodobieństwa, że ​​jest to głowa, to głowa albo nie. Załóżmy teraz, że dzwonisz do głowy. To właśnie oblicza CI. Ponieważ nigdy nie możesz ujawnić monety (Twoja analogia do eksperymentu zniknie). Masz rację lub się mylisz, to wszystko. Czy jego obecny stan ma jakiś związek z prawdopodobieństwem pojawienia się głów przy następnej klapie, czy też mogłem przewidzieć, co to jest? Nie. Proces, w którym produkowana jest głowa, ma 0,5 prawdopodobieństwa jej wytworzenia, ale nie oznacza to, że głowa, która już istnieje, ma 0,5 prawdopodobieństwa istnienia. Po obliczeniu CI nie ma prawdopodobieństwa, że ​​uchwyci μ, to robi albo nie - już rzuciłeś monetą.

OK, chyba dość tego torturowałem. Najważniejsze jest to, że twoja analogia jest błędna. Nigdy nie możesz odsłonić monety; możesz dzwonić tylko do głów lub reszek na podstawie założeń dotyczących monet (eksperymentów). Być może będziesz chciał postawić zakład na poprawność swoich głów lub reszek, ale nigdy nie możesz na tym zarobić. Ponadto kluczowym składnikiem procedury CI jest to, że wartość importu znajduje się w przedziale czasowym. Jeśli nie, to nie masz CI (lub przynajmniej nie ma określonego%).

Prawdopodobnie to, co sprawia, że ​​CI jest mylące, to jego nazwa. Jest to zakres wartości, które zawierają lub nie zawierają . Uważamy, że zawierają μ, ale prawdopodobieństwo tego nie jest takie samo, jak w procesie, który go opracował. 95% część nazwy 95% CI dotyczy właśnie procesu. Ty można obliczyć zakres, który Twoim zdaniem potem zawiera ľ na pewnym poziomie prawdopodobieństwa, ale to już zupełnie inna kalkulacja a nie CI.μμμ

Lepiej myśleć o nazwie 95% CI jako oznaczeniu rodzaju pomiaru zakresu wartości, które według ciebie prawdopodobnie zawierają i oddzielają 95% od tej wiarygodności. Możemy to nazwać Jennifer CI, podczas gdy 99% CI to Wendy CI. To może być lepsze. Następnie możemy powiedzieć, że naszym zdaniem μ prawdopodobnie mieści się w zakresie wartości i nikt nie utknie, mówiąc, że istnieje prawdopodobieństwo Wendy, że udało nam się uchwycić μ . Jeśli chcesz innego oznaczenia, myślę, że powinieneś pewnie swobodnie pozbyć się części „zaufania” CI (ale jest to przerwa).μμμ


Szczerze mówiąc, ta odpowiedź wydaje się odpowiednia, ale z przyjemnością zobaczę jej formalny (matematyczny) opis. Przez formalne rozumiem konwersję na zdarzenia. Wyjaśnię swój punkt: pamiętam, że na początku byłem bardzo mylony z wartościami . Gdzieś czytałem, że „to, co faktycznie obliczają wartości p, to prawdopodobieństwo danych, biorąc pod uwagę, że hipoteza zerowa, H 0 , jest prawdziwa”. Kiedy powiązałem to z twierdzeniem Bayesa, wszystko to miało tak duży sens, że teraz mogę to wyjaśnić wszystkim (tzn. Że oblicza się p ( D | H 0 ) ). Jednak nie jestem (jak na ironię) tak pewny siebie ...ppH0p(D|H0)
Néstor

... (ciąg dalszy) z przedziałami ufności: czy istnieje sposób na wyrażenie tego, co powiedziałeś w zakresie wiedzy? W częstotliwości statystyki. jeden zazwyczaj oblicza oszacowania , niektóre metody (np MLE). Istnieje sposób zapisu P ( L 1 ( μ ) < μ < L 2 ( ^ m U ) | D ) (np Bayesowski centralnego przedziału tylnego, z ľ "prawdziwa średniej") jako funkcja P ( L 1 < ˉ X - μ <μ^P(L1(μ^)<μ<L2(mu^)|D)μ (tzn. Czymtak naprawdę jest α % przedziałów ufności), jak wtedy, gdy można wyrazić p ( H 0 | D ) jako funkcję p ( D | H 0 ) ? Intuicyjnie zawsze myślałem, że da się to zrobić, ale nigdy tego nie zrobiłem. P(L1<X¯μ<L2)=ααp(H0|D)p(D|H0)
Néstor

Czasami możliwość usuwania komentarzy ma swoje wady. W tym przypadku nie mogłem nadążyć za szybkimi zmianami!
kardynał

1
Jeśli nie obliczasz przedziału ufności, masz coś podobnego do ukrytej monety i ma 95% prawdopodobieństwo, że zawiera mu tak samo, jak moneta ma 50% prawdopodobieństwo, że zostaniesz głową. ” - Myślę, że masz błędna analogia tutaj. „Obliczanie CI” nie odpowiada ujawniając monetę, to odpowiada nazywając „głowy” lub „Tails”, w tym momencie jesteś wciąż mają 50-50 szanse na prawo. Ujawnienie monety odpowiada * widzeniu wartości populacji , w którym to momencie możesz odpowiedzieć na pytanie, czy znajduje się w przedziale „wywoływanym”. Zagadka OP pozostaje. μ
Glen_b,

1
@vonjd, nie rozumiem, co nie ma w tym sensu. Jest oczywiste, że twój przeciwnik ma kolor lub nie. Jeśli to pierwsze, prawdopodobieństwo wynosi (trywialnie) 1, a jeśli drugie to 0. W związku z tym nie można rozsądnie powiedzieć, że prawdopodobieństwo wynosi 0,198. To ma sens. Przed przystąpieniem do rozdania rozsądne jest mówienie o prawdopodobieństwie uzyskania koloru. Podobnie przed wyciągnięciem karty rozsądnie jest porozmawiać o prawdopodobieństwie uzyskania potrzebnego koloru. Po posiadaniu karty jest to po prostu dowolny kolor.
gung

22

Formalne, jednoznaczne poglądy na temat argumentów, wnioskowania i logiki wywodzą się z tradycji zachodniej z Arystotelesa. Arystoteles pisał o tych tematach w kilku różnych pracach (w tym o nazwie Tematy ;-)). Jednak najbardziej podstawową pojedynczą zasadą jest prawo niesprzeczności , które można znaleźć w różnych miejscach, w tym w metafizyceksiążka IV, rozdziały 3 i 4. Typowe sformułowanie brzmi: „... nic nie jest w tym samym czasie, aby być i nie być [w tym samym sensie]” (1006 a 1). Jego znaczenie zostało określone nieco wcześniej: „... jest to oczywiście punkt wyjścia nawet dla wszystkich innych aksjomatów” (1005 b 30). Wybacz mi, że woskuje mnie filozofia, ale to pytanie z natury ma treść filozoficzną, której nie można po prostu odłożyć na bok dla wygody.

Rozważ ten eksperyment myślowy: Alex rzuca monetą, łapie ją i przewraca na przedramię, dłonią zakrywając bok do góry. Bob stał we właściwej pozycji; krótko zobaczył monetę w ręce Alexa, dzięki czemu może wydedukować, która strona jest teraz skierowana do góry. Jednak Carlos nie widział monety - nie był we właściwym miejscu. W tym momencie Alex pyta ich, jakie jest prawdopodobieństwo, że moneta pokazuje głowy. Carlos sugeruje, że prawdopodobieństwo wynosi 0,5, ponieważ jest to częstotliwość głowic w długim okresie. Bob nie zgadza się, pewnie twierdzi, że prawdopodobieństwo jest niczym innym jak dokładnie 0 .

Kto ma rację? Możliwe jest oczywiście, że Bob źle zrozumiał i jest niepoprawny (załóżmy, że nie zrozumiał źle). Niemniej jednak nie można uznać, że oba mają rację i są zgodne z prawem braku sprzeczności. (Przypuszczam, że jeśli nie wierzysz w prawo braku sprzeczności, możesz pomyśleć, że oba mają rację, lub jakieś inne podobne sformułowanie.) Teraz wyobraź sobie podobny przypadek, ale bez obecności Boba, czy sugestia Carlosa może być bardziej dobrze (prawda?) bez Boba w pobliżu, skoro nikt nie widział monety? Zastosowanie prawa niesprzeczności nie jest tak jasne w tym przypadku, ale myślę, że oczywiste jest, że części sytuacji, które wydają się ważne, są utrzymywane na stałym poziomie od pierwszego do drugiego. Podjęto wiele prób określenia prawdopodobieństwa, aw przyszłości może być jeszcze wiele innych, ale definicja prawdopodobieństwa w zależności od tego, kto stoi i gdzie się znajduje, ma niewielką atrakcyjność. W każdym razie (zgadywanie na podstawie użycia wyrażenia „przedział ufności "), pracujemy w ramach podejścia Frequentist, i czy ktoś wie, że prawdziwy stan monety jest nieistotny. Nie jest to zmienna losowa - jest to wartość zrealizowana i albo pokazuje głowy, albo pokazuje ogony .

Jak zauważa @John, stan monety może początkowo nie wydawać się podobny do pytania, czy przedział ufności obejmuje prawdziwą średnią. Jednak zamiast monety możemy to abstrakcyjnie zrozumieć jako zrealizowaną wartość zaczerpniętą z rozkładu Bernoulliego o parametrze . W sytuacji monetarnej p = 0,5 , natomiast dla 95% CI p = 0,95 . Ważne jest, aby zdać sobie sprawę z tego, że połączenie polega na tym, że ważną częścią metafory nie jest p, która rządzi sytuacją, ale raczej, że rzutowana moneta lub obliczony CI jest wartością zrealizowaną , a nie zmienną losową. pp=.5p=.95p

Ważne jest dla mnie, aby w tym miejscu zauważyć, że wszystko to dzieje się w ramach częstościowej koncepcji prawdopodobieństwa. Perspektywa bayesowska nie narusza prawa niesprzeczności, po prostu zaczyna się od różnych metafizycznych założeń dotyczących natury rzeczywistości (a konkretniej prawdopodobieństwa). Inni w CV są znacznie lepiej zorientowani w perspektywie bayesowskiej niż ja i być może mogą wyjaśnić, dlaczego założenia stojące za pytaniem nie mają zastosowania w podejściu bayesowskim, i że w rzeczywistości może istnieć 95% prawdopodobieństwo średniej leżące w 95% wiarygodneinterwał, pod pewnymi warunkami, w tym (między innymi), że wcześniejsze użycie było dokładne (patrz komentarz @DikranMarsupial poniżej). Sądzę jednak, że wszyscy się zgodzą, że po stwierdzeniu, że pracujesz w ramach podejścia Frequentist, nie może być tak, że prawdopodobieństwo prawdziwej średniej mieszczącej się w jakimś 95% CI wynosi 0,95.


5
Zgodnie z podejściem bayesowskim nie jest prawdą, że istnieje 95% prawdopodobieństwo, że prawdziwa wartość leży w 95% wiarygodnym przedziale. Bardziej słuszne byłoby stwierdzenie, że biorąc pod uwagę konkretny wcześniejszy rozkład wartości statystyki (reprezentujący nasz początkowy stan wiedzy), a następnie obserwując dane, mamy rozkład boczny reprezentujący zaktualizowany stan wiedzy, co daje nam przedział czasu, w którym mamy 95% pewności, że prawdziwa wartość leży. Będzie to dokładne tylko wtedy, gdy nasze wcześniejsze informacje są dokładne (i inne założenia, takie jak forma prawdopodobieństwa).
Dikran Marsupial

@DikranMarsupial, dzięki za notatkę. To trochę kęs. Zredagowałem moją odpowiedź, aby była bardziej spójna z twoją sugestią, ale nie skopiowałem jej w całości . Daj mi znać, jeśli dalsze zmiany są odpowiednie.
gung

Zasadniczo podejście bayesowskie najlepiej interpretować jako stwierdzenie stanu wiedzy na temat parametru zainteresowania (patrz kardynał, uczę się; o), ale nie gwarantuje, że ten stan wiedzy jest prawidłowy, chyba że wszystkie założenia są poprawne . Podobała mi się dyskusja filozoficzna, będę musiał pamiętać o prawie niesprzeczności, bo następnym razem
omawiam

12

Dlaczego 95% CI nie oznacza 95% szansy na zawarcie średniej?

W tym pytaniu oraz w większości udzielonych odpowiedzi należy wyjaśnić wiele kwestii. Ograniczę się tylko do dwóch.

za. Co oznacza populacja? Czy istnieje prawdziwa populacja?

Pojęcie średniej populacji jest zależne od modelu. Ponieważ wszystkie modele są błędne, ale niektóre są użyteczne, ta populacja oznacza fikcję, która jest zdefiniowana tylko po to, aby zapewnić użyteczne interpretacje. Fikcja zaczyna się od modelu prawdopodobieństwa.

Model prawdopodobieństwa jest zdefiniowany przez tryplet gdzie X jest przestrzenią próbki (niepustym zbiorem), F jest rodziną podzbiorów X, a P jest dobrze zdefiniowaną miarą prawdopodobieństwa zdefiniowaną nad F (reguluje zachowanie danych). Bez utraty ogólności rozważ tylko przypadek dyskretny. Średnia populacji jest określona przez μ = x X x P ( X = x ) , to znaczy reprezentuje tendencję centralną pod P

(X,F,P),
XFXPF
μ=xXxP(X=x),
Pi może być również interpretowany jako środek masy wszystkich punktów w , gdzie ciężar każdego x X jest określony przez P ( X = x ) .XxXP(X=x)

W teorii prawdopodobieństwa miara jest uważana za znaną, dlatego średnia populacji jest dostępna poprzez powyższą prostą operację. Jednak w praktyce prawdopodobieństwo P jest mało znane. Bez prawdopodobieństwa P nie można opisać probabilistycznego zachowania danych. Ponieważ nie możemy ustawić dokładnego prawdopodobieństwa P w celu wyjaśnienia zachowania danych, ustaliliśmy rodzinę M zawierającą miary prawdopodobieństwa, które prawdopodobnie rządzą (lub wyjaśniają) zachowanie danych. Następnie pojawia się klasyczny model statystyczny ( X , F , M ) . Mówi się, że powyższy model jest modelem parametrycznym, jeśli istnieje ΘPPPPM

(X,F,M).
z p < tak, że M{ P θ : θ Θ } . Rozważmy tylko model parametryczny w tym poście.ΘRpp<M{Pθ: θΘ}

PθM

μθ=xXxPθ(X=x).
{μθ: θΘ}MMM

MΘ

b. Jaka jest definicja i cel przedziału ufności?

1αCαθΘP θ ( C α ( X ) = ) = 0 P θ ( C α ( X ) μ

Pθ(Cα(X)μθ)1α   and   infθΘPθ(Cα(X)μθ)=1α,
Pθ(Cα(X)=)=0Pθ(Cα(X)μθ)Cα(X)μθPθ1α

Uwaga: Czytelnicy powinni zauważyć, że nie jest konieczne przyjmowanie założeń dotyczących stanu rzeczywistości, obszar ufności jest zdefiniowany dla dobrze zdefiniowanego modelu statystycznego bez odniesienia do żadnego „prawdziwego” środka. Nawet jeśli „prawdziwa” miara prawdopodobieństwa nie istnieje lub nie jest w , definicja regionu ufności będzie działać, ponieważ założenia dotyczą raczej modelowania statystycznego niż stanów rzeczywistości.M

Z jednej strony, przed obserwacją danych, jest zestawem losowym (lub losowym przedziałem), a prawdopodobieństwo, że „ zawiera średnią ” wynosi co najmniej dla wszystkich . Jest to bardzo pożądana cecha dla paradygmatu częstych.Cα(X)Cα(X)μθ(1α)θΘ

Z drugiej strony, po obserwacji danych , jest tylko ustalonym zestawem, a prawdopodobieństwo, że „ zawiera średnią ”, powinno wynosić {0,1} dla all .xCα(x)Cα(x)μθθΘ

Oznacza to, że po obserwacji danych nie możemy już stosować rozumowania probabilistycznego. O ile mi wiadomo, nie ma teorii, która traktowałaby zbiory pewności dla obserwowanej próbki (pracuję nad tym i uzyskuję dobre wyniki). Przez pewien czas częsty musi wierzyć, że obserwowany zestaw (lub interwał) jest jednym z zestawów, które zawierają dla wszystkich .xCα(x)(1α)100%μθθΘ

PS: Zapraszam do mojego postu wszelkie komentarze, recenzje, krytyki, a nawet sprzeciwy. Omówmy to dogłębnie. Ponieważ nie jestem rodzimym językiem angielskim, mój post z pewnością zawiera literówki i błędy gramatyczne.

Odniesienie:

Schervish, M. (1995), Theory of Statistics, Second ed, Springer.


Czy ktoś chce to omówić?
Alexandre Patriota

4
Dyskusje mogą odbywać się na czacie, ale są nieodpowiednie na naszej głównej stronie. Więcej informacji o tym, jak to działa, znajduje się w naszym centrum pomocy . Tymczasem zastanawia mnie formatowanie Twojego postu: prawie wszystkie są sformatowane jako cytat. Czy wyodrębniłeś ten materiał z jakiegoś opublikowanego źródła, czy jest to twój własny, nowo napisany dla tej odpowiedzi? Jeśli to drugie, usuń cytaty!
whuber

2
(+1). Dziękujemy za imponująco jasne streszczenie. Witamy na naszej stronie!
whuber

11

Dziwi mnie, że nikt nie przedstawił przykładu Bergera w zasadzie bezużytecznego 75% przedziału ufności opisanego w drugim rozdziale „Zasady wiarygodności”. Szczegóły można znaleźć w oryginalnym tekście (który jest dostępny bezpłatnie w projekcie Euclid ): najważniejsze w tym przykładzie jest to, że opisuje on jednoznacznie sytuację, w której z absolutną pewnością znasz wartość pozornie nieznanego parametru po obserwując dane, ale zapewniłbyś, że masz tylko 75% pewności, że Twój przedział zawiera prawdziwą wartość. Przebadanie szczegółów tego przykładu pozwoliło mi zrozumieć całą logikę konstruowania przedziałów ufności.


8
W ustawieniach częstych nie można „stwierdzić, że masz tylko 75% pewności, że Twój przedział zawiera prawdziwą wartość” w odniesieniu do CI, w pierwszej kolejności. Na tym polega sedno problemu. :)
kardynał

1
czy możesz podać bezpośredni link / odnośnik do strony do tego przykładu? Przeszukałem rozdział, ale nie mogłem znaleźć właściwego przykładu.
Ronald

@ Ronald: Jest to pierwszy na pierwszej stronie rozdziału 2. Bezpośredni link byłby mile widzianym dodatkiem.
kardynał

1
Link zgodnie z życzeniem. O tak. W tym przykładzie wydaje się jasne: jeśli przeprowadzimy eksperyment, istnieje 75% szans, że wynikowy przedział ufności będzie zawierał średnią. Po przeprowadzeniu eksperymentu i poznaniu jego przebiegu prawdopodobieństwo to może być inne, w zależności od rozkładu uzyskanej próbki.
Ronald

7

Nie wiem, czy to pytanie powinno zostać zadane jako nowe pytanie, ale dotyczy tego samego pytania zadanego powyżej, proponując eksperyment myślowy.

Po pierwsze, zakładam, że jeśli wybiorę losową kartę do gry ze standardowej talii, prawdopodobieństwo, że wybrałem klub (bez patrzenia na nią) wynosi 13/52 = 25%.

Po drugie, wielokrotnie stwierdzano, że 95% przedział ufności należy interpretować w kategoriach wielokrotnego powtarzania eksperymentu, a obliczony przedział będzie zawierał prawdziwą średnią 95% czasu - myślę, że James Waters wykazał to dość przekonująco symulacja. Wydaje się, że większość ludzi akceptuje tę interpretację 95% CI.

A teraz eksperyment myślowy. Załóżmy, że mamy zmienną rozkładającą się normalnie w dużej populacji - może wysokość dorosłych mężczyzn lub kobiet. Mam chętnego i niestrudzonego asystenta, którego zadaniem jest wykonanie wielu procesów próbkowania danej wielkości próbki z populacji i obliczenie średniej próby i przedziału ufności 95% dla każdej próbki. Mój asystent bardzo chętnie mierzy wszystkie możliwe próbki z populacji. Następnie dla każdej próbki mój asystent zapisuje wynikowy przedział ufności jako zielony (jeśli CI zawiera prawdziwą średnią) lub czerwony (jeśli CI nie zawiera prawdziwej średniej). Niestety mój asystent nie pokaże mi wyników swoich eksperymentów. Potrzebuję uzyskać informacje o wysokościach dorosłych w populacji, ale mam tylko czas, zasoby i cierpliwość, aby wykonać eksperyment raz. Wykonuję pojedynczą próbkę losową (tej samej wielkości próbki, której używał mój asystent) i obliczam przedział ufności (używając tego samego równania).

Nie widzę wyników mojego asystenta. Jakie jest zatem prawdopodobieństwo, że losowa próbka, którą wybrałem, da zielony CI (tj. Przedział zawiera prawdziwą średnią)?

Moim zdaniem jest to to samo, co opisana wcześniej sytuacja w talii kart i może być interpretowane jako 95% prawdopodobieństwo, że obliczony przedział zawiera prawdziwą średnią (tj. Jest zielony). A jednak wydaje się, że kłamstwem jest to, że 95% przedział ufności NIE MOŻE być interpretowany, ponieważ istnieje 95% prawdopodobieństwo, że przedział zawiera prawdziwą średnią. Dlaczego (i gdzie) moje rozumowanie w powyższym eksperymencie myślowym się rozpada?


+1 Jest to wyjątkowo jasny opis postępu pojęciowego od normalnej populacji do binarnej sytuacji próbkowania. Dziękujemy za udostępnienie go nam i witamy na naszej stronie!
whuber

Prześlij to jako pytanie.
Jan

Dzięki za komentarz, John. Opublikowałem teraz jako osobne pytanie ( stats.stackexchange.com/questions/301478/… ).
user1718097

4

Chociaż w licznych świetnych odpowiedziach toczyła się obszerna dyskusja, chcę dodać prostszą perspektywę. (choć został on nawiązywał w innych odpowiedzi. - ale nie wprost) Z jakiegoś parametru i dał próbkę , A przedział ufności jest stwierdzenie prawdopodobieństwa postaciθ(X1,X2,,Xn)100p%

P(g(X1,X2,,Xn)<θ<f(X1,X2,,Xn))=p

Jeżeli rozważymy być stałe, to powyższe stwierdzenie jest o zmiennych losowych i , albo bardziej dokładnie, to jest o losowy interwał .g ( X 1 , X 2 , , X n ) f ( X 1 , X 2 , , X n ) ( g ( X 1 , X 2 , , X n ) , f ( X 1 , X 2 , , X n ) )θg(X1,X2,,Xn)f(X1,X2,,Xn)(g(X1,X2,,Xn),f(X1,X2,,Xn))

Zamiast więc podawać informacje o prawdopodobieństwie wystąpienia parametru w przedziale, podaje informacje o prawdopodobieństwie wystąpienia przedziału zawierającego parametr - ponieważ przedział jest tworzony ze zmiennych losowych.


3

Ze względów praktycznych nie ma większego powodu, aby zakładać się, że twój 95% CI zawiera prawdziwą średnią przy kursie 95: 5, niż obstawiać na rzut monetą swojego przyjaciela przy kursie 50:50.

Jeśli twój przyjaciel rzucił już monetą i uważasz, że istnieje 50% prawdopodobieństwa, że jest to główka, to po prostu używasz innej definicji prawdopodobieństwa słowa. Jak powiedzieli inni, dla częstych nie można przypisać prawdopodobieństwa wystąpieniu zdarzenia, ale raczej można opisać prawdopodobieństwo wystąpienia zdarzenia w przyszłości przy użyciu danego procesu.

Z innego bloga: Częstotliwość powie: „Konkretne wydarzenie nie może mieć prawdopodobieństwa. Moneta pokazuje głowę lub reszkę, a jeśli nie pokażesz, po prostu nie mogę powiedzieć, co jest faktem. Tylko jeśli powtórzysz rzut wiele, wiele razy, jeśli wystarczająco silnie zmienisz początkowe warunki rzutów, spodziewałbym się, że względna częstotliwość głowic we wszystkich tych rzutach zbliży się do 0,5 ". http://www.researchgate.net/post/What_is_the_difference_between_frequentist_and_bayesian_probability


2
Ten blog brzmi jak kłótnia człowieka. Wydaje się, że myli filozofię prawdopodobieństwa z jakimś (nieistniejącym) nieodłącznym ograniczeniem zdolności do tworzenia modeli prawdopodobieństwa. W tej charakterystyce nie rozpoznaję żadnej formy klasycznych procedur statystycznych ani metodologii. Niemniej jednak uważam, że twój końcowy wniosek jest słuszny - ale język, którego używa, nie wyjaśniając, że zakład dotyczy CI, a nie środka, grozi stworzeniem formy zamieszania, którą ma rozwiązać to pytanie.
whuber

1
Często używanym przeze mnie sposobem jest podkreślenie, że CI jest wynikiem procedury. To, co podoba mi się w twoim końcowym stwierdzeniu, to to, że można je łatwo przekształcić w takiej formie, jak w „Nie więcej się obstawiasz przy kursie 95: 5, że twój przedział ufności 95% obejmuje prawdziwą średnią, niż jesteś obstawiać na rzut monetą znajomego po kursie 50:50 ”.
whuber

OK, zmieniłem to.
Nigelhenry,

2

Powiedz, że CI obliczony na podstawie konkretnego zestawu danych, który masz, jest jednym z 5% możliwych CI, które nie zawierają średniej. Jak blisko jest bycia w 95% wiarygodnym przedziale, który chciałbyś sobie wyobrazić? (To znaczy, jak blisko jest do zawarcia średniej z 95% prawdopodobieństwem?) Nie masz pewności, że w ogóle jest ona bliska. W rzeczywistości twój CI nie może pokrywać się nawet z jednym z 95% z 95% CI, które faktycznie zawierają średnią. Nie wspominając o tym, że nie zawiera on samego środka, co sugeruje również, że nie jest to 95% wiarygodny przedział.

Może chcesz to zignorować i optymistycznie założyć, że twój CI jest jednym z 95%, które zawiera średnią. OK, co wiemy o twoim CI, biorąc pod uwagę, że jest on w 95%? Że zawiera średnią, ale być może jedyne wyjście skrajne, z wyłączeniem wszystkiego innego po drugiej stronie średniej. Prawdopodobnie nie zawiera 95% rozkładu.

Tak czy inaczej, nie ma gwarancji, a może nawet nie ma uzasadnionej nadziei, że 95% CI to 95% wiarygodny przedział.


Jestem ciekawy pierwszego akapitu. Być może źle go interpretuję, ale argument wydaje się nieco sprzeczny z faktem, że istnieje wiele przykładów, w których CI i wiarygodne odstępy czasu pokrywają się dla wszystkich możliwych zestawów obserwacji. Czego mi brakowało?
kardynał

@cardinal: Mogę się mylić. Mówiłem o ogólnym przypadku, ale domyślam się, że w przypadku, gdy CI i wiarygodny przedział są takie same, istnieją inne ograniczenia, takie jak normalność, które uniemożliwiają CI zbyt daleko w tyle.
Wayne

Skupiłem się najmocniej na ostatnim zdaniu w akapicie; przykład przedziałów czasowych miał na celu podkreślenie punktu. Zastanów się, czy naprawdę wierzysz w to zdanie, czy nie. :)
kardynał

Czy masz na myśli, że 95% CI nie oznacza, że ​​5% nie zawiera średniej? Powinienem powiedzieć „z definicji, czy nawet nie musi zawierać samego środka”? A może brakuje mi jeszcze bardziej?
Wayne

Wayne, w jaki sposób fakt, że dany przedział nie zawiera średniej, wyklucza, że ​​jest to prawidłowy przedział wiarygodny? Czy źle czytam tę uwagę?
kardynał

2

(tzn. przyjaciel rzuca uczciwą monetą, ukrywa wynik, a ja nie mogę powiedzieć, że istnieje 50% szans na to, że to głowa)

Jeśli zgadujesz tylko, że Twoje monety przewracają 50% główek / resz, to nie robisz tego dobrze.

  • Powinieneś spróbować szybko spojrzeć na monetę po / kiedy wyląduje i zanim wynik zostanie ukryty.
  • Powinieneś także spróbować z góry ustalić szacunkową wartość monety.

Z pewnością wiarygodność twojego przypuszczenia na temat rzutu monetą będzie zależeć od tych warunków i nie zawsze będzie taka sama 50% (czasami twoja metoda „oszukiwania” może działać lepiej).

Twoje ogólne domysły mogą wynosić x> 50% właściwego czasu, ale to niekoniecznie oznacza, że ​​prawdopodobieństwo każdego rzutu wynosi stale x% głów. Byłoby więc trochę dziwnie rzutować ogólne prawdopodobieństwo na prawdopodobieństwo konkretnego rzutu. Jest to inny „rodzaj prawdopodobieństwa”.


Trochę zależy od tego, jaki poziom lub głębokość określisz / zdefiniujesz „prawdopodobieństwo” .

  • Zaufanie jest niezależne od „określonego prawdopodobieństwa w danym eksperymencie / przerzuceniu” i niezależne od „prawdopodobieństwa a priori” .

  • Pewność dotyczy całego zestawu eksperymentów . Jest skonstruowany w taki sposób, że nie trzeba znać a priori prawdopodobieństw ani rozkładów w populacji.

  • Zaufanie dotyczy ogólnego „wskaźnika awaryjności” oszacowania, ale w szczególnych przypadkach można precyzyjniej określić różnice w prawdopodobieństwie .

    ( Te różnice prawdopodobieństwa istnieją przynajmniej niejawnie , teoretycznie i nie musimy ich znać, aby mogły istnieć. Ale możemy jawnie wyrazić te prawdopodobieństwa, stosując podejście bayesowskie).


Przykład 1:

Powiedz, że testujesz na bardzo rzadką chorobę. Wykonujesz test, który może być postrzegany jako próba Bernoulliego (dodatnia lub ujemna), która ma wysoki dla pozytywnego wyniku, gdy dana osoba jest chora lub niski gdy dana osoba nie jest chora.p=0.99p=0.01

Obecnie nie jest to zwykle wykonywane (w praktyce klinicznej) w celu oszacowania przedziału CI dla ale możesz to zrobić (jako przykład), jeśli chcesz. Jeśli test jest pozytywny, to szacujesz a jeśli test jest negatywny, to szacujesz .p0.05p10p0.95

Jeśli masz 1% populacji chorej, wówczas średnio otrzymasz 1,98% wyniku testu pozytywnego (1% od 99% zdrowych osób uzyska pozytywny wynik testu i 99% od 1% chorych pozytywnych wyników testu). To sprawia, że ​​Twój przedział 95% CI (warunkowy) po napotkaniu pozytywnego testu , poprawia tylko 50% czasu.

Z drugiej strony, jeśli napotkasz negatywny test, będziesz miał więcej niż 95% czasu na poprawność, więc ogólnie szacunek przedziału CI jest poprawny (co najmniej) 95% czasu, ale dla każdego przypadku osobno (dla konkretnych przypadków ) nie można tak naprawdę powiedzieć, że prawdopodobieństwo w tym przedziale wynosi 95%. Prawdopodobnie istnieje pewna zmienność.p

Przykład 2:

Powiedzmy, że ludzie wykonują 300 pytań IQ. Z naiwnej ufności i częstościowym punktu widzenia można zakładać, że każda osoba ma teoretyczną prywatnego dystrybucja do wykonywania testów, a na podstawie zaobserwowanej skuteczności testów można stworzyć pewne oszacowanie przedziału tak, że w 95% przypadków będziesz miał rację, aby poprawnie umieścić w przedziale.iN(μi,σi2)μi

Ignoruje to, że regresja ma wpływ na średnią, a prawdopodobieństwo a priori dla IQ dowolnej osoby rozkłada się jako . Następnie w skrajnych przypadkach, niski lub wysoki, wynik wyników, prawdopodobieństwo IQ osoby w 95% przedziałach ufności opartych na pomiarach / testach będzie niższe niż 95%.μiN(100,15)

(odwrotnie jest w przypadku osób, które mają wyniki zbliżone do 100, ich iloraz inteligencji będzie prawdopodobnie bardziej niż 95% wewnątrz 95% -CI, a to powinno zrekompensować błędy, które popełniłeś w skrajnościach, tak abyś miał rację w 95% przypadków)


2

Najpierw podajmy definicję przedziału ufności lub, w przestrzeniach o wymiarze większym niż jeden, obszar pewności. Definicja jest zwięzłą wersją tej podanej przez Jerzego Neymana w artykule z 1937 r. Dla Royal Society.

Niech parametrem będzie a statystyką be . Każda możliwa wartość parametru jest powiązana z regionem akceptacji dla którego , przy czym jest współczynnikiem ufności lub poziomem ufności (zazwyczaj 0,95), a jest informacją podstawową, którą musimy określić nasze prawdopodobieństwa . Obszar ufności dla , biorąc pod uwagę , to wtedy .pspA(p,α)prob(sA(p,α)|p=p,I)=ααIps=sC(s,α)={p|sA(p,α)}

Innymi słowy, wartościami parametrów, które tworzą region ufności, są tylko te, których odpowiadający obszar prawdopodobieństwa obszaru próbki zawiera statystyki.α

Teraz rozważmy, że dla każdej możliwej wartości parametru :p

[pC(s,α)]prob(s=s|p=p,I)ds=[sA(p,α)]prob(s=s|p=p,I)ds=α

gdzie nawiasy kwadratowe to nawiasy Iverson. Jest to kluczowy wynik dla przedziału ufności lub regionu. Mówi, że oczekiwanie , przy rozkładzie próbkowania zależnym od , wynosi . Wynik ten jest gwarantowany przez konstrukcję regionów akceptacji, a ponadto dotyczy , ponieważ jest możliwą wartością parametru. Nie jest to jednak stwierdzenie prawdopodobieństwa dotyczące , ponieważ oczekiwania nie są prawdopodobieństwami![pC(s,α)]pαppp

Prawdopodobieństwo, że to oczekiwanie jest często mylone, to prawdopodobieństwo, zależne od , że parametr leży w regionie ufności:s=s

prob(pC(s,α)|s=s,I)=C(s,α)prob(s=s|p=p,I)prob(p=p|I)dpprob(s=s|p=p,I)prob(p=p|I)dp

Prawdopodobieństwo to zmniejsza się do tylko dla niektórych kombinacji informacji i regionów akceptacji . Na przykład, w przypadku gdy odpowiednie jest jednorodna i rozmieszczenie próbek jest symetryczny w i (np gaussowskim z jako średnia), a następnie:αIA(p,α)spp

prob(pC(s,α)|s=s,I)=C(s,α)prob(s=p|p=s,I)dpprob(s=p|p=s,I)dp=prob(sC(s,α)|p=s,I)=prob(sA(s,α)|p=s,I)

Jeśli dodatkowo regiony akceptacji są takie, że , to:sA(s,α)sA(s,α)

prob(pC(s,α)|s=s,I)=prob(sA(s,α)|p=s,I)=α

Podręczny przykład szacowania średniej populacji ze standardowym przedziałem ufności skonstruowanym wokół normalnej statystyki jest szczególnym przypadkiem poprzednich założeń. Dlatego średnia 95% przedział ufności nie zawiera średnią z prawdopodobieństwem 0,95; ale ta korespondencja na ogół nie obowiązuje.


-1

Jest tu kilka interesujących odpowiedzi, ale pomyślałem, że dodam małą praktyczną demonstrację przy użyciu R. Ostatnio użyliśmy tego kodu w kursie statystyk, aby podkreślić, jak działają przedziały ufności. Oto, co robi kod:

1 - Próbkuje ze znanego rozkładu (n = 1000)

2 - Oblicza 95% CI dla średniej z każdej próbki

3 - Pytanie, czy CI każdej próbki zawiera prawdziwą średnią.

4 - Podaje w konsoli ułamek elementów CI, który zawierał prawdziwą średnią.

Właśnie uruchomiłem skrypt kilka razy i naprawdę nie jest zbyt rzadkie, aby stwierdzić, że mniej niż 94% elementów CI zawierało prawdziwy środek. Przynajmniej dla mnie pomaga to rozwiać ideę, że przedział ufności ma 95% prawdopodobieństwo zawarcia prawdziwego parametru.

#   In the following code, we simulate the process of
#   sampling from a distribution and calculating
#   a confidence interval for the mean of that 
#   distribution.  How often do the confidence
#   intervals actually include the mean? Let's see!
#
#   You can change the number of replicates in the
#   first line to change the number of times the 
#   loop is run (and the number of confidence intervals
#   that you simulate).
#
#   The results from each simulation are saved to a
#   data frame.  In the data frame, each row represents
#   the results from one simulation or replicate of the 
#   loop.  There are three columns in the data frame, 
#   one which lists the lower confidence limits, one with
#   the higher confidence limits, and a third column, which
#   I called "Valid" which is either TRUE or FALSE
#   depending on whether or not that simulated confidence
#   interval includes the true mean of the distribution.
#
#   To see the results of the simulation, run the whole
#   code at once, from "start" to "finish" and look in the
#   console to find the answer to the question.    

#   "start"

replicates <- 1000

conf.int.low <- rep(NA, replicates)
conf.int.high <- rep(NA, replicates)
conf.int.check <- rep(NA, replicates)

for (i in 1:replicates) {

        n <- 10
        mu <- 70
        variance <- 25
        sigma <- sqrt(variance)
        sample <- rnorm(n, mu, sigma)
        se.mean <- sigma/sqrt(n)
        sample.avg <- mean(sample)
        prob <- 0.95
        alpha <- 1-prob
        q.alpha <- qnorm(1-alpha/2)
        low.95 <- sample.avg - q.alpha*se.mean
        high.95 <- sample.avg + q.alpha*se.mean

        conf.int.low[i] <- low.95
        conf.int.high[i] <- high.95
        conf.int.check[i] <- low.95 < mu & mu < high.95
 }    

# Collect the intervals in a data frame
ci.dataframe <- data.frame(
        LowerCI=conf.int.low,
        UpperCI=conf.int.high, 
        Valid=conf.int.check
        )

# Take a peak at the top of the data frame
head(ci.dataframe)

# What fraction of the intervals included the true mean?
ci.fraction <- length(which(conf.int.check, useNames=TRUE))/replicates
ci.fraction

    #   "finish"

Mam nadzieję że to pomoże!


2
Przepraszamy za krytykę, ale musiałem (tymczasowo) głosować za odpowiedzią. Wierzę, że to nieporozumienie oznacza przedział ufności i mam szczerą nadzieję, że nie był to argument użyty w twojej klasie. Symulacje sprowadzają się do (dość skomplikowanego) dwumianowego eksperymentu z próbkowaniem.
kardynał

5
@ cardinal Cóż ... on po prostu stosuje długoterminową interpretację statystyki częstokrzyskiej. Próbkuj z populacji wiele razy, obliczyć CI tyle razy, a okazuje się, że prawdziwa średnia zawiera się w CI 95% czasu (dla ). Przynajmniej to było dla mnie całkiem jasne. 1α=0.95
Néstor

4
„Mniej niż 94%” w próbie 1000 CI nie jest z pewnością znaczącym dowodem na to, że 95% CI zawiera średnią. W rzeczywistości spodziewałbym się, że 95% CI rzeczywiście zawiera średnią w tym przypadku.
Ronald

3
@Ronald: Tak, dokładnie o to mi chodziło w komentarzach, ale powiedziałeś to o wiele prościej i bardziej zwięźle. Dzięki. Jak stwierdzono w jednym z komentarzy, zobaczysz 940 sukcesów lub mniej w około 8,7% przypadków i to jest prawda w odniesieniu do każdego dokładnie 95% CI, które buduje się w ciągu 1000 eksperymentów. :)
kardynał

2
@JamesWaters: Dziękujemy za poświęcenie czasu na odpowiedź. Kod jest w porządku, ale nie widzę, jak „pokazuje przypadki, w których jest niepoprawny”. Czy możesz wyjaśnić ten zamiar? Nadal podejrzewam, że może tu dojść do fundamentalnego nieporozumienia. Wydaje się, że rozumiesz, czym jest CI i jak poprawnie go interpretować, ale eksperyment symulacyjny nie odpowiada na pytanie, na które, jak twierdzisz, odpowiada. Myślę, że ta odpowiedź ma potencjał, więc chciałbym zobaczyć, jak skończy się z ładną edycją, aby wyjaśnić punkt, który próbujesz osiągnąć. Twoje zdrowie. :)
kardynał
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.