Czym dokładnie jest przedział ufności?


86

Z grubsza i nieformalnie wiem, jaki jest przedział ufności. Wydaje mi się jednak, że nie mogę owinąć głowy jednym ważnym punktem: według Wikipedii:

Przedział ufności nie przewiduje, że prawdziwa wartość parametru ma szczególne prawdopodobieństwo, że znajdzie się w przedziale ufności, biorąc pod uwagę faktycznie uzyskane dane.

Widziałem również podobne uwagi poczynione w kilku miejscach na tej stronie. Bardziej poprawna definicja, również z Wikipedii, to:

jeżeli przedziały ufności są konstruowane na podstawie wielu oddzielnych analiz danych z powtarzanych (i być może różnych) eksperymentów, proporcja takich przedziałów, które zawierają prawdziwą wartość parametru, będzie w przybliżeniu odpowiadać poziomowi ufności

Znów widziałem podobne punkty poczynione w kilku miejscach na tej stronie. Nie rozumiem Jeśli w powtarzanych eksperymentach ułamek obliczonych przedziałów ufności, który zawiera prawdziwy parametr θ wynosi (1-α) , to w jaki sposób prawdopodobieństwo, że θ jest w przedziale ufności obliczonym dla rzeczywistego eksperymentu, może być inne niż (1-α) ? W odpowiedzi szukam następujących informacji:

  1. Wyjaśnienie rozróżnienia między niepoprawnymi i poprawnymi definicjami powyżej.

  2. Formalna, precyzyjna definicja przedziału ufności, która wyraźnie pokazuje, dlaczego pierwsza definicja jest błędna.

  3. Konkretny przykład przypadku, w którym pierwsza definicja jest spektakularnie błędna, nawet jeśli podstawowy model jest poprawny.


4
Ten post zawiera dobrą dyskusję na temat przedziałów ufności stats.stackexchange.com/questions/2356/… . Myślę, że artykuł, o którym mowa w poście, pomaga wyjaśnić dokładnie, dlaczego powyższe definicje są prawidłowe dla przedziałów ufności. Często, gdy patrzymy, jak rozkładają się elementy CI, można je lepiej zrozumieć.
probabilityislogic

2
Część mnie pochwala pytanie (+1). Konkurująca część chce zauważyć, że 1. Zdecydowana większość konsumentów statystyk, którzy używają statystyk pragmatycznie, ale nie filozoficznie, aby wyrazić swoje zdanie w chemii lub badaniach rynkowych, nigdy nie zrozumie subtelności problemów, a my często nie potrafisz wyjaśnić wyników. 2. Nawet niektórzy purystyczni statystycy mogą wpaść w pułapkę składania rzekomo probabilistycznych stwierdzeń, takich jak te zawierające przedziały ufności, gdy nie pracują z przypadkowymi próbkami. Znacznie większy problem.
rolando2

3
@Mario Twoje przypuszczenie nie jest prawdziwe! Spośród 100 powtórzeń eksperymentu oczekujemy, że 95 CI (nie średnich) będzie zawierać prawdziwą (ale nieznaną) średnią. CI jest losowy, ale prawdziwa średnia populacji nie.
whuber

6
Jest ładny artykuł autorstwa Cumminga i Maillardeta (2006) pokazujący, że nie 95% średnich sposobów replikacji przypada na pierwotny CI, ale tylko 83,4% (nazywają tę wartość „procentem przechwytywania”). Powodem jest to, że istnieją dwa źródła zmienności: A) zmienność pierwotnej średniej wokół mu, i B) zmienność średnich replikacji wokół mu. Większość ludzi zapomina: oryginalny CI nie jest koniecznie konstruowany mu!
Felix S

2
Zainteresowani czytelnicy mogą również chcieć zobaczyć ten wątek: Dlaczego 95% CI nie implikuje 95% szansy na zawarcie średniej?
gung

Odpowiedzi:


26

Uważam, że ten eksperyment myślowy był pomocny przy myśleniu o przedziałach ufności. Odpowiada również na twoje pytanie 3.

Niech i Y = X + a - 1XU(0,1) . Rozważmy dwie obserwacjeYprzyjmując wartościY1iY2odpowiada obserwacjomx1orazx2zXi pozwolićyl=min(Y1,Y2)iRU=max(Y1,Y2). Zatem[yl,yu]to 50% przedział ufności dlaY=X+a12Yy1y2x1x2Xyl=min(y1,y2)yu=max(y1,y2)[yl,yu]za(ponieważ przedział zawiera jeśli x 1 < 1zalubx1>1x1<12)<x2), z których każdy ma prawdopodobieństwo1x1>12)>x2)14 ).

Jednakże, jeśli to wiemy, że prawdopodobieństwo, że przedział zawieraa,wynosi1, a nie1yu-yl>12)za1 . Subtelność jest to, żez%przedział ufności dla parametru oznacza, że punkty końcowe przedziału (które są zmiennymi losowymi) leżą po obu stronach parametru z prawdopodobieństwemoo%przed obliczyć przedział, a nie że prawdopodobieństwo parametru leżący w granicach interwał wynosiz%po obliczeniu interwału.12)z%z% z%


3
Należy zauważyć, że prawie na pewno, a tym samym odstęp [ Y L , Y U ] zawiera parametr A z prawdopodobieństwem zerowego. W rzeczywistości twój argument działa, jeśli szacujesz, że θ = a + 1Y>za[yl,yu]za . θ=za+12)
Czy

4
Nie sądzę, że ten przykład licznik jest ważny, ponieważ posiadał znasz tylko prawdopodobieństwo, że przedział zawiera jest jeden po obejrzeniu, że y u - y l > 1 / 2 . Jest całkowicie uzasadnione, że prawdopodobieństwo powinno ulec zmianie po uzyskaniu dodatkowych informacji. Gdybyście wiedzieli tylko, że przedział był 50% przedziałem ufności, wówczas prawdopodobieństwo nadal wynosiłoby 1/2 (chociaż byłoby to prawdopodobieństwo Bayesa, a nie częste, ponieważ dotyczy konkretnego zdarzenia, które nie ma częstotliwości długiego przebiegu)θyuyl>1/2)
Dikran Marsupial

1
To rzeczywiście dobry przykład, ale zdecydowanie nie zgadzam się z twoimi stwierdzeniami o prawdopodobieństwach, które zmieniają się przed i po obliczeniu przedziału ufności. To nie ma sensu i sprawia wrażenie, że matematyka w jakiś sposób dba o to, co wiesz, a czego nie. To nie !! Ci zawsze ma to jest 1P.(za[yl,yu]) . Równieżzawszema toP([YL,YU]12)wynosi1. To nie jest sprzeczność, jedno jest po prostu bezwarunkowym prawdopodobieństwem, a drugie jest warunkowym prawdopodobieństwem. P.(za[yl,yu]|yu-yl>12))1
fgp

2
@fgp, tak, być może jest to złe sformułowanie ze strony Taylora mówiące o zmianie prawdopodobieństwa. Żadne prawdopodobieństwa się nie zmieniają. Argument pokazuje, jak łatwo powstają sytuacje, wykazując, że błędne zrozumienie elementów CI prowadzi do problemów logicznych. Jeśli uważasz, że obserwowany CI ma 50% prawdopodobieństwa bycia poprawnym, ale prawdopodobnie nie może być poprawny, oznacza to, że rozumiesz CI jest błędny.
John

36

Istnieje wiele kwestii dotyczących przedziałów ufności, ale skupmy się na cytatach. Problem polega na możliwych błędnych interpretacjach, a nie na poprawności. Kiedy ludzie mówią, że „parametr ma szczególne prawdopodobieństwo” czegoś, myślą o tym parametrze jako zmiennej losowej. Nie jest to punkt widzenia (klasycznej) procedury przedziału ufności, dla której zmienna losowa jest samym przedziałem, a parametr jest określony, nie losowy, ale nieznany. Dlatego takie oświadczenia są często atakowane.

Matematycznie, jeśli pozwolimy dowolnej procedurze, która odwzorowuje dane x = ( x i ) na podzbiory przestrzeni parametrów i jeśli (bez względu na wartość parametru θ ) twierdzenie θ t ( x ) definiuje zdarzenie A ( x ) , a następnie - z definicji - ma prawdopodobieństwo Pr θ ( A ( x ) ) dla dowolnej możliwej wartości θ . Gdy t jest procedurą przedziału ufności z pewnością 1tx=(xi)θθt(x)A(x)Prθ(A(x))θt. (Z zastrzeżeniem tego kryterium, zwykle wybieramy procedury, które optymalizują pewne dodatkowe właściwości, takie jak tworzenie krótkich przedziałów ufności lub symetrycznych, ale to osobna sprawa.) Słabe prawo dużych liczb uzasadnia następnie drugą ofertę. Nie jest to jednak definicja przedziałów ufności: jest to tylko ich własność.1αwówczas prawdopodobieństwo to powinno mieć minimum (ponad wszystkie wartości parametrów) 1α

Myślę, że ta analiza odpowiedziała na pytanie 1, pokazuje, że przesłanka pytania 2 jest niepoprawna i sprawia, że ​​pytanie 3 jest dyskusyjne.


3
Dziękujemy za udzielenie odpowiedzi na doskonałe pytanie. Czy mogę przedstawić następującą analogię do dalszej dyskusji? Załóżmy, że w kółko rzucam uczciwą monetą. Następnie . Teraz rzucam monetą raz, ale nie pokazuję ci, co rzuciłem, i pytam: „Jakie jest prawdopodobieństwo, że głowy są w górze?”. Jak odpowiedziałbyś na to pytanie? P.(H.mizare)=.50
Wolfgang

3
Innym sposobem na wyrażenie tego jest: w przypadku osób niebędących Bayesianami „jedynymi” rzeczami, które mogą mieć prawdopodobieństwo, są możliwe zdarzenia - w sensie przyszłych wyników losowego eksperymentu. Biorąc pod uwagę, że parametr ma ustaloną prawdziwą wartość, po uzyskaniu interwału o określonych wartościach nie jest już możliwe zdarzenie, niezależnie od tego, czy parametr jest zawarty w przedziale. W rezultacie możesz mieć zaufanie do procesu generującego interwał, ale nie w dwóch konkretnych liczbach.
caracal

1
@caracal - tylko trochę do myślenia, czy „rzut monetą” jest naprawdę „losowy”? Jeśli powiesz „tak”, odrzucisz pogląd, że to, czy moneta podnosi się do góry głowy, jest deterministyczną (ale skomplikowaną) funkcją wielu rzeczy (powiedzmy - wiatr, wysokość, siła i kąt obrotu, waga monety itp.) .). Myślę, że to pokazuje podwójny standard „losowości”, który dotyczy myślenia opartego na CI. Dane są ustalone, ale nie jesteśmy pewni co do ich wartości ( dane ergo są losowe ), podczas gdy parametry są ustalone, ale nie jesteśmy pewni co do jego wartości ( parametry ergo nie są losowe ).
probabilityislogic

4
@Wolfgang Nie rozumiem, jak twój przykład odnosi się do przedziałów ufności. Nie pytasz o nic związanego z parametrem dystrybucyjnym. Twoja sytuacja jest najściślej związana z przedziałami prognoz. Myślę, że cała ta dyskusja może być zainteresowana tym kontekstem, ale nie należy do wątku dotyczącego przedziałów ufności.
whuber

2
@ whuber Pytanie, czy można złożyć oświadczenie prawdopodobieństwa dotyczące określonego 95% CI przechwytującego prawdziwy nieznany parametr, jest bardzo podobne do pytania, czy można złożyć oświadczenie prawdopodobieństwa dotyczące konkretnego odwrócenia, w którym wynik jest nadal nieznany. W dłuższej perspektywie 95% CI przechwyci parametr. Na dłuższą metę 50% przewrotów to głowy. Czy możemy powiedzieć, że istnieje 95% szans, że dany CI przechwyci parametr? Czy możemy powiedzieć, że istnieje 50% szans, że głowy będą w górze, zanim spojrzą? Powiedziałbym tak obu stronom. Ale niektórzy ludzie mogą się nie zgadzać.
Wolfgang

19

Nie nazwałbym definicji elementów zbiorczych za błędną, ale łatwo je zinterpretować, ponieważ istnieje więcej niż jedna definicja prawdopodobieństwa. CI opierają się na następującej definicji prawdopodobieństwa (częste lub ontologiczne)

(1) prawdopodobieństwo zdania = długi okres, w którym stwierdzenie jest prawdziwe, zależnie od procesu generowania danych

Dlatego, aby być koncepcyjnie poprawnym w używaniu CI, musisz zaakceptować tę definicję prawdopodobieństwa. Jeśli nie, to z teoretycznego punktu widzenia przedział nie jest CI.

Dlatego w definicji użyto proporcji słowa, a NIE słowa prawdopodobieństwa , aby wyjaśnić, że stosowana jest definicja prawdopodobieństwa „długofalowej częstotliwości”.

Główną alternatywną definicją prawdopodobieństwa (epistemologiczna lub prawdopodobieństwo jako rozszerzenie logiki dedukcyjnej lub bayesowskiej) jest

(2) prawdopodobieństwo zdania = racjonalny stopień przekonania, że ​​zdanie jest prawdziwe, uwarunkowane stanem wiedzy

Ludzie często intuicyjnie mieszają obie te definicje i używają dowolnej interpretacji, która przypadnie im do gustu. Może to doprowadzić cię do różnego rodzaju mylących sytuacji (szczególnie gdy przechodzisz od jednego paradygmatu do drugiego).

To, że oba podejścia często prowadzą do tego samego rezultatu, oznacza, że ​​w niektórych przypadkach mamy:

racjonalny stopień przekonania, że ​​twierdzenie jest prawdziwe, uwarunkowane stanem wiedzy = długookresowy odsetek przypadków, gdy twierdzenie jest prawdziwe, zależne od procesu generowania danych

Chodzi o to, że nie ma uniwersalnego charakteru , więc nie możemy oczekiwać, że dwie różne definicje zawsze będą prowadziły do ​​tych samych wyników. Tak więc, chyba że faktycznie opracujesz rozwiązanie bayesowskie, a nie okaże się, że jest to ten sam interwał, nie możesz podać interwałowi podanemu przez CI jako interpretację prawdopodobieństwa zawierającego prawdziwą wartość. A jeśli tak, to przedział ten nie jest przedziałem ufności, ale przedziałem wiarygodności.


2
Nie rozumiem, dlaczego prawdopodobieństwo zdania według definicji 1 powinno być liczbą wymierną. Wydaje się, że proporcja długookresowa odnosi się do granicy proporcji czasów, w których twierdzenie jest prawdziwe. Każda proporcja jest liczbą wymierną, ale ich limit może nie być. (Na szczęście twoje nawiasy wydają się co najwyżej styczne do reszty twojej odpowiedzi).
Czy

3
@probability Wydaje się, że ta odpowiedź zdejmuje nas ze stycznej w niezbyt konstruktywny sposób. Zrównanie prawdopodobieństwa i proporcji jest formą zamieszania ontologicznego, podobnego do zrównania temperatury z poziomem rtęci w termometrze: jeden jest konstrukcją teoretyczną, a drugi zjawiskiem fizycznym używanym do jego pomiaru. Jest jakaś dyskusja o tym co stats.stackexchange.com/questions/1525/... .
whuber

@Didier - masz rację, w rzeczywistości sekwencja , co jest terminami racjonalnymi z irracjonalnym ograniczeniem. Usunąłem tę uwagę. Dzięki, że o tym wspomniałeś. xn=r2xn1+xn12r
probabilityislogic

6
@ whuber - Tę kwestię należy poruszyć, ponieważ właśnie to nieporozumienie prowadzi ludzi do niewłaściwej interpretacji CI. Mylenie prawdopodobieństwa z „racjonalnym stopniem przekonania” nie jest zgodne z paradygmatem częstych. Dzieje się tak, gdy rozumiesz CI jako „prawdopodobieństwo, że wartość rzeczywista będzie w przedziale”, co robi @dsimcha w pytaniu.
probabilislogiczny

1
@probability Dziękujemy za wyjaśnienie. Zrozumiałem twoją odpowiedź jako zgodną z definicją „prawdopodobieństwo = proporcja”. W rzeczywistości dokładne ponowne czytanie wciąż sugeruje, że to właśnie mówisz w trzecim akapicie, mimo że twój komentarz charakteryzuje to jako nieporozumienie. Możesz wyjaśnić tę kwestię.
whuber

6

RA Fisher miał kryterium przydatności przedziałów ufności: CI nie powinien dopuszczać „możliwych do zidentyfikowania podzbiorów”, które sugerują inny poziom ufności. W większości (jeśli nie wszystkich) kontrpróbkach mamy przypadki, w których istnieją możliwe do zidentyfikowania podzbiory o różnych prawdopodobieństwach pokrycia.

W tych przypadkach można użyć Bayesowskich przedziałów wiarygodności, aby określić subiektywne wyczucie, gdzie znajduje się parametr, lub sformułować przedział prawdopodobieństwa, aby odzwierciedlić względną niepewność parametru, biorąc pod uwagę dane.

Na przykład jednym przypadkiem, który wydaje się względnie wolny od sprzeczności, jest dwustronny normalny przedział ufności dla średniej populacji. Zakładając pobieranie próbek z normalnej populacji z danym standardem, 95% CI nie dopuszcza żadnych możliwych do zidentyfikowania podzbiorów, które dostarczyłyby więcej informacji o parametrze. Widać to po fakcie, że średnia próbki jest wystarczającą statystyką w funkcji prawdopodobieństwa - tj. Funkcja wiarygodności jest niezależna od wartości poszczególnych próbek, kiedy znamy średnią próbki.

Powód, dla którego mamy jakiekolwiek subiektywne zaufanie do 95% symetrycznego CI dla średniej normalnej, wynika mniej z podanego prawdopodobieństwa pokrycia, a bardziej z faktu, że symetryczny 95% CI dla normalnej średniej jest przedziałem „najwyższego prawdopodobieństwa”, tj. wartości parametrów w przedziale mają większe prawdopodobieństwo niż jakakolwiek wartość parametru poza przedziałem. Ponieważ jednak prawdopodobieństwo nie jest prawdopodobieństwem (w sensie długoterminowej dokładności), jest bardziej subiektywnym kryterium (podobnie jak bayesowskie zastosowanie wcześniejszego i prawdopodobieństwa). Podsumowując, istnieje nieskończenie wiele przedziałów dla średniej normalnej, które mają 95% prawdopodobieństwo pokrycia, ale tylko symetryczny CI ma intuicyjną możliwość, której oczekujemy od oszacowania przedziału.

Dlatego kryterium RA Fishera sugeruje, że prawdopodobieństwo pokrycia powinno być zrównane z subiektywną pewnością tylko wtedy, gdy nie dopuszcza żadnego z tych identyfikowalnych podzbiorów. Jeżeli obecne są podzbiory, prawdopodobieństwo pokrycia będzie uzależnione od prawdziwych wartości parametru (ów) opisującego podzbiór. Aby uzyskać interwał z intuicyjnym poziomem ufności, należy uzależnić estiamte interwału od odpowiednich statystyk pomocniczych, które pomogą zidentyfikować podzbiór. LUB, możesz skorzystać z modeli dyspersji / mieszanin, co naturalnie prowadzi do interpretacji parametrów jako zmiennych losowych (aka statystyki Bayesa) lub możesz obliczyć prawdopodobieństwo profilu / warunkowego / marginalnego w ramach prawdopodobieństwa. Tak czy inaczej, porzuciłeś wszelką nadzieję na wymyślenie obiektywnie weryfikowalnego prawdopodobieństwa bycia poprawnym,

Mam nadzieję że to pomoże.


1
(+1) Jednym ze sposobów uzasadnienia symetrycznego normalnego CI jest minimalizacja oczekiwanej długości. Ostatecznie to tylko spycha subiektywność do wyboru długości jako funkcji straty w procedurze decyzyjnej: ale jest to prawdopodobnie „dobry” rodzaj subiektywności (ponieważ ujawnia rolę naszych celów analitycznych w naszym wyborze procedury statystycznej), a nie „zła” subiektywność, która brzmi jak pejoratywny epitet.
whuber

5

Z teoretycznego punktu widzenia pytania 2 i 3 oparte są na błędnym założeniu, że definicje są błędne. Zgadzam się więc z odpowiedzią @ whuber w tym zakresie, a odpowiedź @ whuber na pytanie 1 nie wymaga ode mnie żadnego dodatkowego wkładu.

Jednak z bardziej praktycznego punktu widzenia przedział ufności można nadać jego intuicyjnej definicji (prawdopodobieństwo zawarcia prawdziwej wartości), gdy jest on liczbowo identyczny z wiarygodnym przedziałem bayesowskim opartym na tych samych informacjach (tj. Nieinformacyjny wcześniej).

Jest to jednak nieco przygnębiające dla zagorzałego anty-bayesowskiego, ponieważ aby zweryfikować warunki, aby dać CI interpretację, którą chce dać, muszą wypracować rozwiązanie bayesowskie, dla którego intuicyjna interpretacja automatycznie obowiązuje!

Najłatwiejszym przykładem jest przedział ufności dla średniej normalnej ze znaną wariancją1αorazprzedział wiarygodności1-αpóźniejszy wiarygodny ¯ x ±σZα / 2.x¯±σZα/21αx¯±σZα/2

Nie jestem do końca pewien warunków, ale wiem, że następujące elementy są ważne dla intuicyjnej interpretacji elementów CI:

1) istnieje statystyka obrotu, której rozkład jest niezależny od parametrów (czy dokładne obroty istnieją poza rozkładem normalnym i rozkładem chi-kwadrat?)

2) nie ma żadnych uciążliwych parametrów (z wyjątkiem przypadku kluczowej statystyki, która jest jednym z niewielu dokładnych sposobów radzenia sobie z parametrami uciążliwymi podczas tworzenia elementów CI)

3) istnieje wystarczająca statystyka dla parametru będącego przedmiotem zainteresowania, a przedział ufności wykorzystuje wystarczającą statystykę

(x¯|μ,σ)N(μ,σn)(μ|x¯,σ)N(x¯,σn)

Warunki te są zwykle trudne do znalezienia i zwykle łatwiej jest wyliczyć przedział bayesowski i porównać go. Ciekawym ćwiczeniem może być również próba odpowiedzi na pytanie „dla jakiego priorytetu mój CI jest również wiarygodnym przedziałem czasowym?”. Możesz odkryć pewne ukryte założenia dotyczące procedury CI, patrząc na to wcześniej.


1
(+1) Czy naprawdę istnieje taka osoba jak „anty-bayesowska”? :-)
whuber

6
@whuber Oto jeden . A oto ekonometryczka, która współpracuje z nią w dziedzinie stypendiów w dziedzinie filozofii statystyki.
Cyan

1
Dzięki! To niezwykle interesujący wątek w filozofii prawdopodobieństwa i statystyce, o której nie wiedziałem.
whuber

1
Źle napisałeś? x¯±zα/2)σnn

3

To może być trudne do zrozumienia:

  • jeśli średnio 95% wszystkich przedziałów ufności będzie zawierało parametr
  • i mam jeden konkretny przedział ufności
  • dlaczego prawdopodobieństwo, że ten przedział nie zawiera parametru, również wynosi 95%?

Przedział ufności dotyczy procedury pobierania próbek. Gdyby pobrać wiele próbek i obliczyć 95% przedział ufności dla każdej próbki, okazałoby się, że 95% tych przedziałów zawiera średnią populacji.

Jest to przydatne na przykład w działach jakości przemysłowej. Ci faceci pobierają wiele próbek, a teraz mają pewność, że większość ich szacunków będzie bardzo zbliżona do rzeczywistości. Wiedzą, że 95% ich szacunków jest całkiem dobrych, ale nie mogą tego powiedzieć o każdym konkretnym oszacowaniu.

16

16

16

Podobnie, jeśli masz tylko 1 próbkę (a więc 1 przedział ufności), nie masz sposobu, aby powiedzieć, jak prawdopodobne jest, że średnia populacji jest w tym przedziale. Średnia (lub dowolny parametr) jest albo w nim, albo nie. Prawdopodobieństwo wynosi 1 lub 0.

Nie jest również prawdą, że wartości w przedziale ufności są bardziej prawdopodobne niż wartości poza nim. Zrobiłem małą ilustrację; wszystko mierzone jest w ° C. Pamiętaj, woda zamarza w temperaturze 0 ° C i wrze w temperaturze 100 ° C.

Przypadek: w zimnym jeziorze chcielibyśmy oszacować temperaturę wody, która płynie pod lodem. Mierzymy temperaturę w 100 lokalizacjach. Oto moje dane:

  • 0,1 ° C (mierzone w 49 lokalizacjach);
  • 0,2 ° C (również w 49 lokalizacjach);
  • 0 ° C (w 1 miejscu. Ta woda była po prostu miała zamarznąć);
  • 95 ° C (w jednym miejscu znajduje się fabryka, która nielegalnie zrzuca bardzo ciepłą wodę do jeziora).
  • Średnia temperatura: 1,1 ° C;
  • Odchylenie standardowe: 1,5 ° C;
  • 95% -CI: (-0,8 ° C ...... + 3,0 ° C).

Temperatury w tym przedziale ufności zdecydowanie NIE są bardziej prawdopodobne niż te poza nim. Średnia temperatura płynącej wody w tym jeziorze NIE MOŻE być niższa niż 0 ° C, inaczej nie byłaby to woda, tylko lód. Część tego przedziału ufności (mianowicie sekcja od -0,8 do 0) faktycznie ma 0% prawdopodobieństwa zawarcia prawdziwego parametru.

Podsumowując: przedziały ufności są częstym pojęciem i dlatego opierają się na idei powtarzanych próbek. Jeśli wielu badaczy pobrałoby próbki z tego jeziora i gdyby wszyscy ci badacze obliczyli przedziały ufności, wówczas 95% tych przedziałów będzie zawierać prawdziwy parametr. Ale dla jednego przedziału ufności nie można powiedzieć, jak prawdopodobne jest, że zawiera on prawdziwy parametr.


1
Nie należy mylić faktu, że statystyki częstych nie mierzą przekonań z osobami często mającymi częste przekonania i aktualizującymi je. Różnica polega nie na tym, czy częsty jest idiotą bez wiedzy poza danymi, ale na tym, czy częste statystyki dostarczają bezpośrednich miar stanów przekonań. Częstotliwość musi aktualizować swoje przekonania na podstawie testów, CI itp. W przeciwnym razie cały ich system nie działa, ponieważ wszystko zależy od podjętych decyzji.
John

2

Okay, zdaję sobie sprawę, że kiedy obliczasz 95% przedział ufności dla parametru przy użyciu klasycznych metod częstościowych, nie oznacza to, że istnieje 95% prawdopodobieństwo, że parametr mieści się w tym przedziale. A jednak ... kiedy podchodzisz do problemu z perspektywy bayesowskiej i obliczasz 95% wiarygodny przedział dla parametru, otrzymujesz (zakładając, że nie informacyjny wcześniej) dokładnie ten sam przedział , który otrzymujesz przy użyciu klasycznego podejścia. Tak więc, jeśli użyję klasycznych statystyk do obliczenia 95% przedziału ufności dla (powiedzmy) średniej zbioru danych, to prawdą jest, że istnieje 95% prawdopodobieństwo, że parametr leży w tym przedziale.


5
To, czy uzyskasz ten sam wynik, stosując częste przedziały ufności i wiarygodne przedziały bayesowskie, zależy od problemu, w szczególności od wcześniejszego rozkładu zastosowanego w podejściu bayesowskim. W matematyce i nauce ważne jest również to, że mając rację masz rację z właściwego powodu!
Dikran Torbacz

4
Jeśli „użyjesz klasycznych statystyk do obliczenia 95% przedziału ufności dla [parametru]”, to jeśli konsekwentnie rozumujesz, nie ma sensu odwoływać się do „prawdopodobieństwa, że ​​parametr leży w tym przedziale”. W momencie, gdy wspominasz o tym prawdopodobieństwie, zmieniłeś model statystyczny sytuacji. W nowym modelu, w którym parametr jest losowy, niepoprawne jest obliczanie CI za pomocą metod częstych. Uzyskanie w ten sposób właściwej odpowiedzi w niektórych sytuacjach jest interesujące, ale nie uzasadnia leżącego u jej podstaw pomieszania pojęć.
whuber

4
@ whuber - twoja przesłanka „... jeśli konsekwentnie rozumujesz ...” ma konsekwencje z twierdzenia starego dobrego Coxa. Mówi, że jeśli konsekwentnie rozumujesz, wówczas twoje rozwiązanie musi być matematycznie równoważne z rozwiązaniem bayesowskim. Tak więc, biorąc pod uwagę to założenie, CI będzie koniecznie odpowiadać wiarygodnemu przedziałowi, a jego interpretacja jako prawdopodobieństwo jest poprawna. A w Bayesie to nie parametr ma rozkład, to niepewność co do tego parametru, który ma rozkład.
probabilityislogic

2
... ciąg dalszy ... Więc można zagrać w głupią grę Jestem Bayesianinem „Prawdopodobnie parametr jest w przedziale”, jestem częstym „probem, który interwał obejmuje parametr”, jestem Bayesianem ... jestem częsty, ... jestem Bayesianin ... jestem częsty ... ... cały czas liczby faktycznych obliczeń nigdy się nie zmieniają
prawdopodobieństwo

2

Pytasz o przedział ufności Frequentist . Definicja (zwróć uwagę, że żadne z 2 cytowań nie jest definicją! Tylko stwierdzenia, które oba są poprawne) to:

Gdybym powtórzył ten eksperyment wiele razy, biorąc pod uwagę ten dopasowany model z tymi wartościami parametrów , w 95% eksperymentów oszacowana wartość parametru mieściłaby się w tym przedziale.

Masz więc model (zbudowany na podstawie zaobserwowanych danych) i jego szacunkowe parametry. Następnie, jeśli wygenerowano kilka hipotetycznych zestawów danych zgodnie z tym modelem i parametrami, oszacowane parametry mieszczą się w przedziale ufności.

Tak więc to częste podejście przyjmuje model i parametry szacunkowe jako ustalone, jak podano, i traktuje twoje dane jako niepewne - jako losową próbkę wielu innych możliwych danych.

Jest to naprawdę trudne do zinterpretowania i jest to często wykorzystywane jako argument dla statystyki bayesowskiej ( co moim zdaniem może być czasem mało dyskusyjne . Z drugiej strony statystyki bayesowskie traktują twoje dane jako stałe i traktują parametry jako niepewne. Bayesowskie wiarygodne interwały są to faktycznie intuicyjne, jak można się spodziewać: wiarygodne przedziały bayesowskie to przedziały, w których przy 95% leży rzeczywista wartość parametru.

Ale w praktyce wiele osób interpretuje częste przedziały ufności w taki sam sposób, jak wiarygodne przedziały bayesowskie, a wielu statystyk nie uważa tego za poważny problem - choć wszyscy wiedzą, że nie jest to w 100% poprawne. Również w praktyce częste i bayesowskie przedziały ufności / wiarygodności nie będą się znacznie różnić, gdy zastosuje się bayesowskie nieinformacyjne priory .


1-α1-α

@ Whuber, OK, rozumiem, ale jeśli powiesz, że moja definicja jest błędna, opublikuj pełną definicję CI.
Ciekawy

Xt=[L.,U]ϕ(θ)θθ0γt(θ0)=Parθ0{L.(X)ϕ(θ0)U(X)}γ¯t=infθΩγt(θ)tt

@ Whuber, twoja definicja jest dla mnie naprawdę niezrozumiała i obawiam się również dla większości ludzi :) I tak, miałem na myśli aktualne oszacowanie, tak często jak częsty dostajesz oszacowanie parametru, jak podano, i dane losowe, przeciwnie do bayesowskiego.
Ciekawy

3
Myślę, że głównym problemem w twojej definicji Curious jest: „... szacunkowa wartość parametru mieści się w przedziale”. To nie jest parametr szacowany, ale nieznany parametr stały; i nie mieści się w przedziale, raczej przedział się przesuwa i 95% czasu przechwytuje parametr.
Jan

2

θT.θθ[T.-1;T.+1]

T.=12

T.=12θ[11;13]P.(θ[11;13]|T.=12)

P.(θ[11;13]|T.=12)θT.

  • θ[0;30]
  • T.=12
  • P.(θ[11;13]|T.=12)=0,94

P.(θ...|T....)θθ[T.-1;T.+1]0,95θ,P.(θ[T.-1;T.+1]|θ)=0,95

Więc :

  • P.(θ[T.-1;T.+1]|T.)=0,94T.=12
  • θ,P.(θ[T.-1;T.+1]|θ)=0,95

Oświadczenie Bayesa jest bardziej naturalne. Najczęściej stwierdzenie częstokroć jest błędnie interpretowane spontanicznie jako oświadczenie bayesowskie (przez każdy normalny ludzki mózg, który od lat nie ćwiczy statystyki). I szczerze mówiąc, wiele statystyk nie wyjaśnia tego jasno.

I praktycznie?

W wielu zwykłych sytuacjach faktem jest, że prawdopodobieństwo uzyskane przez częste i bayesowskie podejście jest bardzo bliskie. Tak więc mylenie częstego stwierdzenia Bayesa ma niewielkie konsekwencje. Ale „filozoficznie” jest zupełnie inaczej.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.