Joris i Srikant za wymianę tutaj got me zastanawiasz się (ponownie), czy moje wewnętrzne wyjaśnienia dotyczące różnicy pomiędzy przedziałami ufności i wiarygodnych odstępach były właociwe. Jak wytłumaczysz różnicę?
Joris i Srikant za wymianę tutaj got me zastanawiasz się (ponownie), czy moje wewnętrzne wyjaśnienia dotyczące różnicy pomiędzy przedziałami ufności i wiarygodnych odstępach były właociwe. Jak wytłumaczysz różnicę?
Odpowiedzi:
Zgadzam się całkowicie z wyjaśnieniem Srikant. Aby nadać mu bardziej heurystyczny obrót:
Podejścia klasyczne ogólnie zakładają, że świat jest jednokierunkowy (np. Parametr ma jedną konkretną prawdziwą wartość) i próbują przeprowadzić eksperymenty, których wynik - niezależnie od prawdziwej wartości parametru - będzie poprawny z co najmniej pewnym minimum prawdopodobieństwo.
W rezultacie, aby wyrazić niepewność w naszej wiedzy po eksperymencie, częste podejście stosuje „przedział ufności” - zakres wartości zaprojektowany w celu uwzględnienia prawdziwej wartości parametru z pewnym minimalnym prawdopodobieństwem, powiedzmy 95%. Częsty specjalista zaprojektuje eksperyment i procedurę 95% przedziału ufności, tak aby na każde 100 przeprowadzonych eksperymentów zaczynało się kończyć, należy oczekiwać, że co najmniej 95 z uzyskanych przedziałów ufności będzie zawierać prawdziwą wartość parametru. Pozostałe 5 może być nieco błędne lub mogą być kompletnymi bzdurami - formalnie rzecz biorąc, jest to w porządku, jeśli chodzi o podejście, o ile 95 na 100 wnioskowania jest poprawnych. (Oczywiście wolelibyśmy, aby były nieco w błędzie, a nie totalne bzdury.)
Podejścia bayesowskie inaczej formułują problem. Zamiast powiedzieć, że parametr ma po prostu jedną (nieznaną) prawdziwą wartość, metoda bayesowska mówi, że wartość parametru jest stała, ale została wybrana z pewnego rozkładu prawdopodobieństwa - znanego jako wcześniejszy rozkład prawdopodobieństwa. (Innym sposobem jest stwierdzenie, że przed wykonaniem jakichkolwiek pomiarów Bayesian przypisuje rozkład prawdopodobieństwa, który nazywają stanem przekonania, na podstawie tego, jaka jest prawdziwa wartość parametru.) Ten „uprzedni” może być znany (wyobraź sobie próbowanie oszacować wielkość ciężarówki, jeśli znamy ogólny rozkład wielkości ciężarówek z DMV) lub może to być założenie wyciągnięte z powietrza. Wnioskowanie bayesowskie jest prostsze - zbieramy niektóre dane, a następnie obliczamy prawdopodobieństwo różnych wartości parametru PODAJ dane. Ten nowy rozkład prawdopodobieństwa nazywa się „prawdopodobieństwem a posteriori” lub po prostu „posteriori”. Podejścia bayesowskie mogą podsumować ich niepewność, podając zakres wartości dla tylnego rozkładu prawdopodobieństwa, który obejmuje 95% prawdopodobieństwa - nazywa się to „przedziałem wiarygodności 95%”.
Bayesiański partyzant może skrytykować częsty przedział ufności w następujący sposób: „A co, jeśli 95 na 100 eksperymentów da przedział ufności obejmujący prawdziwą wartość? ZROBIŁEM. Twoja reguła pozwala, aby 5 ze 100 było kompletnymi bzdurami [wartości ujemne, wartości niemożliwe], o ile pozostałe 95 są poprawne; to niedorzeczne ”.
Częstotliwy zagorzały może skrytykować przedział wiarygodności bayesowskiej w następujący sposób: „A co, jeśli 95% prawdopodobieństwa a posteriori zostanie uwzględnione w tym zakresie? Co jeśli prawdziwa wartość to, powiedzmy, 0,37? Jeśli tak, to zastosuj swoją metodę zacznie się kończyć, będzie W 75% przypadków NIEPRAWIDŁOWYCH. Twoja odpowiedź brzmi: „No cóż, to w porządku, ponieważ według wcześniejszych przypadków bardzo rzadko wartość wynosi 0,37”, i może tak być, ale chcę metody, która działa dla KAŻDEJ możliwej wartości parametru. Nie obchodzi mnie 99 wartości parametru, KTÓRE NIE Mają, zależy mi na jednej prawdziwej wartości, jaką MASZ. Och, tak przy okazji, twoje odpowiedzi są tylko poprawne jeśli wcześniejsze jest poprawne. Jeśli wyciągniesz go z powietrza, ponieważ wydaje się to właściwe, możesz być daleko ”.
W pewnym sensie obaj partyzanci mają rację w swoich krytycznych ocenach metod, ale zachęcam do matematycznego myślenia o rozróżnieniu - jak wyjaśnia Srikant.
Oto rozszerzony przykład z tego przemówienia, który pokazuje różnicę właśnie w dyskretnym przykładzie.
Kiedy byłem dzieckiem, moja matka czasami mnie zaskakiwała, zamawiając słoik ciasteczek z kawałkami czekolady, które należy dostarczyć pocztą. Firma dostarczająca zaopatrzyła się w cztery różne rodzaje słoików z ciasteczkami - typ A, typ B, typ C i typ D, wszystkie były na tej samej ciężarówce i nigdy nie byłeś pewien, jaki typ otrzymasz. Każdy słoik miał dokładnie 100 ciastek, ale cechą wyróżniającą różne słoiki z ciastkami była ich odpowiednia dystrybucja kawałków czekolady na ciasteczko. Jeśli sięgniesz do słoika i wyjmiesz losowo jedno ciasteczko jednolicie, są to rozkłady prawdopodobieństwa, które otrzymasz na liczbę żetonów:
Na przykład słoik z ciastkami typu A ma 70 ciastek z dwoma żetonami, i nie ma ciastek z czterema lub więcej żetonami! Słoik na ciastka typu D ma 70 ciastek z jednym chipem. Zauważ, że każda pionowa kolumna jest funkcją masy prawdopodobieństwa - warunkowe prawdopodobieństwo liczby żetonów, które otrzymasz, biorąc pod uwagę, że jar = A, B, C lub D, a każda kolumna sumuje się do 100.
Uwielbiałem grać w grę, gdy tylko dostawca dostarczył mój nowy pojemnik na ciastka. Wyciągnąłem losowo jedno ciasteczko ze słoika, policzyłem żetony na ciastku i spróbowałem wyrazić moją niepewność - na poziomie 70% - jakie to może być słoiki. Zatem to tożsamość słoika (A, B, C lub D) jest wartością szacowanego parametru . Liczba żetonów (0, 1, 2, 3 lub 4) jest wynikiem, obserwacją lub próbką.
Początkowo grałem w tę grę z częstym, 70% przedziałem ufności. Taki interwał musi gwarantować, że bez względu na prawdziwą wartość parametru, czyli bez względu na to, który słoik z ciasteczkami mam, przedział ten pokryje tę prawdziwą wartość z prawdopodobieństwem co najmniej 70%.
Przedział to oczywiście funkcja, która wiąże wynik (wiersz) z zestawem wartości parametru (zestawem kolumn). Ale aby skonstruować przedział ufności i zagwarantować 70% pokrycie, musimy pracować „pionowo” - patrząc kolejno na każdą kolumnę i upewniając się, że 70% funkcji masy prawdopodobieństwa jest pokryte, aby w 70% przypadków tożsamość kolumny będzie częścią przedziału, który się pojawi. Pamiętaj, że to pionowe kolumny tworzą pmf
Po wykonaniu tej procedury skończyłem z następującymi interwałami:
Na przykład, jeśli liczba żetonów na wylosowanym przeze mnie pliku cookie wynosi 1, mój przedział ufności wyniesie {B, C, D}. Jeśli liczba wynosi 4, mój przedział ufności wyniesie {B, C}. Zauważ, że ponieważ każda kolumna sumuje się do 70% lub więcej, to bez względu na to, w której kolumnie naprawdę się znajdujemy (bez względu na to, w którym słoju dostarczono dostawcę), odstęp czasu wynikający z tej procedury będzie obejmować prawidłowy słoik z prawdopodobieństwem co najmniej 70%.
Zauważ też, że procedura, którą zastosowałem przy konstruowaniu przedziałów, była dość dyskretna. W kolumnie dotyczącej typu B równie łatwo mogłem się upewnić, że przedziały zawierające B wyniosłyby 0,1,2,3 zamiast 1,2,3,4. Spowodowałoby to 75% pokrycie słoików typu B (12 + 19 + 24 + 20), wciąż spełniających dolną granicę 70%.
Moja siostra Bayesia uważała jednak, że takie podejście jest szalone. „Musisz rozważyć dostawcę jako część systemu” - powiedziała. „Bawmy tożsamość słoiku jako samej zmiennej losowej, a niech zakładają , że deliverman wybiera spośród nich równomiernie - co oznacza, że ma wszystkie cztery na jego samochodu, a kiedy dostaje się do naszego domu, który wybiera jeden losowo, każdy z jednolite prawdopodobieństwo ”.
„Przy takim założeniu przyjrzyjmy się teraz wspólnym prawdopodobieństwom całego zdarzenia - typowi słoika i liczbie żetonów pobranych z pierwszego pliku cookie”, powiedziała, rysując następującą tabelę:
Zauważ, że cała tabela jest teraz funkcją masy prawdopodobieństwa - co oznacza, że cała tabela sumuje się do 100%.
„Ok”, powiedziałem, „dokąd zmierzasz?”
„Patrzyłeś na warunkowe prawdopodobieństwo liczby żetonów, biorąc pod uwagę słoik,” powiedział Bayesia. „To wszystko źle! Naprawdę zależy ci na warunkowym prawdopodobieństwie, który to jest słoik, biorąc pod uwagę liczbę żetonów na ciasteczku! Twój 70% interwał powinien po prostu obejmować słoiki z listami, które łącznie mają 70% prawdopodobieństwa bycia prawdziwy słój. Czy to nie jest o wiele prostsze i bardziej intuicyjne? ”
„Jasne, ale jak to obliczyć?” Zapytałam.
„Powiedzmy, że wiemy , że masz 3 żetony. Następnie możemy zignorować wszystkie pozostałe wiersze w tabeli i po prostu potraktować ten wiersz jako funkcję masy prawdopodobieństwa. Musimy proporcjonalnie zwiększyć prawdopodobieństwo, aby każdy wiersz sumował się do 100 , chociaż." Ona zrobiła:
„Zauważ, że każdy rząd ma teraz wartość pmf i sumuje się do 100%. Odwróciliśmy prawdopodobieństwo warunkowe od tego, od czego zacząłeś - teraz jest to prawdopodobieństwo, że mężczyzna rzuci pewien słoik, biorąc pod uwagę liczbę żetonów na pierwsze ciasteczko ”.
„Interesujące” - powiedziałem. „Więc teraz po prostu zakreślamy tyle słoików w każdym rzędzie, aby uzyskać do 70% prawdopodobieństwa?” Zrobiliśmy to, robiąc te przedziały wiarygodności:
Każdy interwał zawiera zestaw słoików, które, a posteriori , sumują się do 70% prawdopodobieństwa bycia prawdziwym słoikiem.
„Cóż, poczekaj,” powiedziałem. „Nie jestem przekonany. Połóżmy dwa rodzaje odstępów obok siebie i porównajmy je pod kątem zasięgu, zakładając, że dostawca wybiera każdy rodzaj słoika z jednakowym prawdopodobieństwem i wiarygodnością.”
Tutaj są:
Przedziały ufności:
Przedziały wiarygodności:
„Zobacz, jak szalone są twoje przedziały ufności?” powiedziała Bayesia. „Nawet nie masz rozsądnej odpowiedzi, kiedy narysujesz ciastko z zerowymi żetonami! Po prostu mówisz, że to pusty przedział. Ale to oczywiście nie tak - musi to być jeden z czterech rodzajów słoików. Jak możesz z tym żyć sam, określając przedział na koniec dnia, gdy wiesz, że przedział jest nieprawidłowy? I to samo, gdy wyciągniesz ciasteczko z 3 żetonami - przedział jest prawidłowy tylko w 41% przypadków. Nazywając to „70%” pewnością interwał to bzdury. ”
„Hej,” odpowiedziałem. „Jest to poprawne w 70% przypadków, bez względu na to, który słoik został dostarczony przez dostawcę. To o wiele więcej, niż możesz powiedzieć o przedziałach wiarygodności. Co zrobić, jeśli słoik jest typu B? W takim razie twój przedział będzie nieprawidłowy w 80% przypadków i poprawia tylko 20% czasu! ”
„To wydaje się dużym problemem,” kontynuowałem, „ponieważ twoje błędy będą skorelowane z rodzajem słoika. Jeśli wyślesz 100 robotów„ bayesowskich ”, aby ocenić, jaki masz typ słoika, każdy robot próbkuje jedno ciasteczko, „Mówię mi, że w dni typu B 80 robotów otrzyma złą odpowiedź, z których każdy ma> 73% wiary w jej błędne zakończenie! To kłopotliwe, szczególnie jeśli chcesz, aby większość robotów zgodziła się na poprawna odpowiedź."
„PLUS musieliśmy przyjąć założenie, że dostawca zachowuje się jednolicie i wybiera losowo każdy rodzaj słoika” - powiedziałem. „Skąd to się wzięło? Co jeśli to nie tak? Nie rozmawiałeś z nim; nie przeprowadzałeś z nim wywiadu. Jednak wszystkie twoje stwierdzenia prawdopodobieństwa a posteriori opierają się na tym oświadczeniu o jego zachowaniu. Nie musiałem wszelkie takie założenia, a mój przedział spełnia kryterium nawet w najgorszym przypadku. ”
„To prawda, że mój przedział wiarygodności działa słabo na słoikach typu B” - powiedział Bayesia. „Ale co z tego? Słoiki typu B zdarzają się tylko w 25% przypadków. Równoważy to moje dobre omówienie słoików typu A, C i D. I nigdy nie publikuję bzdur.”
„To prawda, że mój przedział ufności działa słabo, gdy narysowałem ciasteczko z zerowymi układami scalonymi” - powiedziałem. „Ale co z tego? Ciasteczka bezwiórowe zdarzają się co najwyżej 27% czasu w najgorszym przypadku (słoik typu D). Mogę sobie pozwolić na bzdury dla tego wyniku, ponieważ ŻADNY słoik nie da błędnej odpowiedzi więcej niż 30 % czasu. ”
„Kolumna sumuje znaczenie” - powiedziałem.
„Wiersz sumuje znaczenie” - powiedziała Bayesia.
„Widzę, że jesteśmy w impasie” - powiedziałem. „Obaj mamy poprawne stwierdzenia matematyczne, które wypowiadamy, ale nie zgadzamy się co do właściwego sposobu oceny niepewności”.
„To prawda”, powiedziała moja siostra. „Chcesz ciasteczka?”
"What if the true value is, say, 0.37? If it is, then your method, run start to finish, will be WRONG 75% of the time"
, podają tylko numery, które wymyślili . W tym konkretnym przypadku odnoszą się one do pewnego wcześniejszego rozkładu, który miał bardzo niską wartość 0,37, a większość jego gęstości prawdopodobieństwa gdzie indziej. Zakładamy, że nasza przykładowa dystrybucja działałaby bardzo słabo, gdy prawdziwa wartość parametru wynosi 0,37, podobnie jak w przypadku przedziałów wiarygodności Bayesii nieszczęśliwie, gdy słoik był typu B.
Moje rozumienie jest następujące:
tło
Problem wnioskowania
Przedziały ufności
Przedział skonstruowany w taki sposób jest nazywany przedziałem ufności. Ponieważ wartość true jest nieznana, ale ustalona, wartość true znajduje się w przedziale lub poza przedziałem. Przedział ufności jest zatem stwierdzeniem o prawdopodobieństwie, że uzyskany przedział ma rzeczywiście wartość parametru. Tak więc instrukcja prawdopodobieństwa dotyczy raczej przedziału (tj. Szansy na ten przedział, który ma prawdziwą wartość lub nie), a nie lokalizacji położenia prawdziwej wartości parametru.
W tym paradygmacie nie ma sensu mówić o prawdopodobieństwie, że prawdziwa wartość jest mniejsza lub większa od pewnej wartości, ponieważ prawdziwa wartość nie jest zmienną losową.
Wiarygodne odstępy czasu
Następnie dochodzimy do oszacowania punktowego z wykorzystaniem rozkładu tylnego (np. Użyj średniej rozkładu tylnego). Ponieważ jednak w ramach tego paradygmatu prawdziwy wektor parametrów jest zmienną losową, chcemy również poznać zakres niepewności, jaki mamy w naszym oszacowaniu punktowym. W ten sposób konstruujemy przedział tak, aby:
Powyżej jest wiarygodny przedział.
Podsumowanie
Wiarygodne odstępy czasu wychwytują naszą obecną niepewność co do lokalizacji wartości parametrów, a zatem mogą być interpretowane jako probabilistyczne stwierdzenie dotyczące parametru.
Natomiast przedziały ufności wychwytują niepewność dotyczącą uzyskanego przedziału (tj. Czy zawiera on prawdziwą wartość, czy nie). Dlatego nie można ich interpretować jako probabilistycznego stwierdzenia o prawdziwych wartościach parametrów.
Nie zgadzam się z odpowiedzią Srikanta w jednym zasadniczym punkcie. Srikant stwierdził:
„Problem wnioskowania: Twoim problemem wnioskowania jest: Jakie wartości θ są rozsądne, biorąc pod uwagę zaobserwowane dane x?”
W rzeczywistości jest to BAYESIAN INFERENCE PROBLEM. W statystyce bayesowskiej staramy się obliczyć P (θ | x), tj. Prawdopodobieństwo wartości parametru przy danych obserwowanych (próbie). WIARYGODNY ODLEGŁOŚĆ to przedział θ, który ma 95% szansy (lub innej) na zawarcie prawdziwej wartości θ, biorąc pod uwagę kilka założeń leżących u podstaw problemu.
PROBLEM Z WYKORZYSTANIEM CZĘSTOTLIWOŚCI:
Czy zaobserwowane dane x są rozsądne, biorąc pod uwagę hipotetyczne wartości θ?
W statystyce częstokrzyskiej staramy się obliczyć P (x | θ), tj. Prawdopodobieństwo obserwacji danych (próbki) przy hipotetycznych wartościach parametrów. INTERWAŁ ZAUFANIA (być może mylący) jest interpretowany jako: jeśli eksperyment, który wygenerował losową próbkę x powtórzono wiele razy, 95% (lub inne) takich przedziałów zbudowanych z tych losowych próbek zawierałoby prawdziwą wartość parametru.
Bałagan w głowie? Taki jest problem ze statystyką częstokroć, a najważniejsze jest to, co dzieje się w statystykach bayesowskich.
Jak zauważa Sikrant, P (θ | x) i P (x | θ) są powiązane w następujący sposób:
P (θ | x) = P (θ) P (x | θ)
Gdzie P (θ) jest naszym wcześniejszym prawdopodobieństwem; P (x | θ) jest prawdopodobieństwem danych zależnych od tego wcześniejszego, a P (θ | x) jest prawdopodobieństwem późniejszym. Wcześniejsze P (θ) jest z natury subiektywne, ale taka jest cena wiedzy o Wszechświecie - w bardzo głębokim sensie.
Pozostałe części odpowiedzi zarówno Sikranta, jak i Keitha są doskonałe.
Odpowiedzi udzielone wcześniej są bardzo pomocne i szczegółowe. Oto moje 0,25 USD.
Przedział ufności (CI) jest koncepcją opartą na klasycznej definicji prawdopodobieństwa (zwanej także „definicją Frequentist”), że prawdopodobieństwo jest podobne do proporcji i oparte na systemie aksjomatycznym Kołmogrowa (i innych).
Wiarygodne odstępy czasu (najwyższa gęstość boczna, HPD) można uznać za mające swoje korzenie w teorii decyzji, opartej na pracach Walda i de Finetti (i znacznie rozszerzonych przez innych).
Ponieważ ludzie w tym wątku wykonali świetną robotę, podając przykłady i różnicę hipotez w przypadku bayesowskim i częstym, podkreślę tylko kilka ważnych punktów.
CI opierają się na fakcie, że wnioskowanie MUSI być dokonywane na wszystkich możliwych powtórzeniach eksperymentu, które można zobaczyć, a NIE tylko na obserwowanych danych, gdzie jako HPD CAŁKOWICIE opierają się na obserwowanych danych (i oczywiście naszych wcześniejszych założeniach).
Ogólnie CI nie są spójne (wyjaśnione później), ponieważ jako HPD są spójne (ze względu na swoje korzenie w teorii decyzji). Koherencja (jak wyjaśniłabym mojej babci) oznacza: biorąc pod uwagę problem z zakładaniem wartości parametru, jeśli klasyczny statystyk (częsty) stawia zakłady na CI, a bayesowski obstawia na HPD, częsty JEST ZWIĄZANY z przegraną (z wyjątkiem trywialnego przypadku gdy HPD = CI). Krótko mówiąc, jeśli chcesz podsumować wyniki eksperymentu jako prawdopodobieństwo oparte na danych, prawdopodobieństwo MUSI być prawdopodobieństwem późniejszym (na podstawie wcześniejszego). Istnieje twierdzenie (por. Heath i Sudderth, Annals of Statistics, 1978), które (z grubsza) stwierdza: Przypisanie prawdopodobieństwa do
Ponieważ elementy CI nie warunkują obserwowanych danych (zwanych również „zasadą warunkowości” CP), mogą istnieć paradoksalne przykłady. Fisher był wielkim zwolennikiem CP, a także znalazł wiele paradoksalnych przykładów, kiedy NIE było to przestrzegane (jak w przypadku CI). To jest powód, dla którego użył wartości p do wnioskowania, w przeciwieństwie do CI. Jego zdaniem wartości p były oparte na obserwowanych danych (wiele można powiedzieć o wartościach p, ale nie o to tu chodzi). Dwa z bardzo znanych paradoksalnych przykładów to: (4 i 5)
(zwany także jego największą porażką, por. Zabell, Stat. Sci. 1992), ale nie stał się popularny z powodu braku ogólności i elastyczności. Fisher próbował znaleźć sposób odmienny zarówno od klasycznych statystyk (szkoły Neymana), jak i szkoły bayesowskiej (stąd słynne powiedzenie Savage'a: „Fisher chciał zrobić omlet z Bayesa (tj. Używając CP) bez rozbijania jaj Bayesa”) . Folklor (bez dowodu) mówi: Fisher w swoich debatach zaatakował Neymana (za błędy typu I i II oraz CI), nazywając go raczej facetem kontroli jakości niż naukowcem , ponieważ metody Neymana nie zależały od obserwowanych danych, zamiast tego wyglądały przy wszystkich możliwych powtórzeniach.
Statystycy chcą również stosować zasadę wystarczalności (SP) oprócz CP. Ale SP i CP razem implikują zasadę prawdopodobieństwa (LP) (por. Birnbaum, JASA, 1962), tzn. Biorąc pod uwagę CP i SP, należy zignorować przestrzeń próbki i spojrzeć tylko na funkcję prawdopodobieństwa. Dlatego musimy tylko spojrzeć na dane i NIE na całą przestrzeń próbki (patrząc na całą przestrzeń próbki jest w sposób podobny do powtarzania próbkowania). Doprowadziło to do powstania koncepcji takiej jak Observed Fisher Information (por. Efron i Hinkley, AS, 1978), która mierzy informacje o danych z częstej perspektywy. Ilość informacji w danych to koncepcja bayesowska (a zatem związana z HPD) zamiast CI.
Kiefer podjął pewne fundamentalne prace nad CI pod koniec lat siedemdziesiątych, ale jego rozszerzenia nie stały się popularne. Dobrym źródłem informacji jest Berger („Could Fisher, Neyman i Jeffreys zgadzają się co do testowania hipotez”, Stat Sci, 2003).
(Jak wskazali Srikant i inni)
CI nie mogą być interpretowane jako prawdopodobieństwo i nie mówią nic o nieznanym parametrze PODAJ obserwowane dane. CI to stwierdzenia dotyczące powtarzanych eksperymentów.
HPD są przedziałami probabilistycznymi opartymi na rozkładzie tylnym nieznanego parametru i mają interpretację opartą na prawdopodobieństwie na podstawie podanych danych.
Właściwość częstokroć (powtarzane próbkowanie) jest właściwością pożądaną, a HPD (z odpowiednimi priorytetami) i CI mają je. Warunki HPD na podanych danych również w odpowiedziach na pytania dotyczące nieznanego parametru
(Cel NIE Subiektywny) Bayesianie zgadzają się z klasycznymi statystykami, że istnieje jedna PRAWDA wartość parametru. Jednak oba różnią się sposobem wnioskowania o tym prawdziwym parametrze.
Bayesowskie HPD dają nam dobry sposób na uzależnienie od danych, ale jeśli nie zgadzają się z częstymi właściwościami CI, nie są bardzo przydatne (analogia: osoba, która używa HPD (z pewnymi wcześniejszymi) bez dobrej właściwości częstokształtnej, jest związana być zgubionym jak stolarz, który dba tylko o młotek i zapomina śrubokręta)
W końcu widziałem ludzi w tym wątku (komentarze dr Jorisa: „... założone założenia sugerują rozproszony uprzedni, tj. Całkowity brak wiedzy o prawdziwym parametrze.”) Mówiące o braku wiedzy o prawdziwym parametrze równoważne z użyciem rozproszonego wcześniej. Nie wiem, czy mogę zgodzić się z tym stwierdzeniem (Dr. Keith zgadza się ze mną). Na przykład, w przypadku podstawowych modeli liniowych, niektóre rozkłady można uzyskać, stosując wcześniejsze jednolite (co niektórzy nazywają rozproszeniem), ALE NIE oznacza to, że jednolity rozkład można uznać za NIŻSZY INFORMACJĘ. Ogólnie rzecz biorąc, wcześniejsza niż INFORMACYJNA (Cel) nie oznacza, że ma niską informację o parametrze.
Uwaga:Wiele z tych punktów opiera się na wykładach jednego z wybitnych bayesianów. Nadal jestem studentem i mogłem go w jakiś sposób źle zrozumieć. Proszę przyjąć moje przeprosiny z góry.
Zawsze fajnie jest zaangażować się w odrobinę filozofii. Bardzo podoba mi się odpowiedź Keitha, ale powiedziałbym, że zajmuje stanowisko „zapominalskiego pana Bayesia”. Złe pokrycie, gdy typ B i typ C może wystąpić tylko wtedy, gdy stosuje on ten sam rozkład prawdopodobieństwa na każdej próbie i odmawia wcześniejszej aktualizacji swojego (jej).
Widać to dość wyraźnie, ponieważ słoiki typu A i typu D dają „określone prognozy”, że tak powiem (odpowiednio dla 0-1 i 2-3 żetonów), podczas gdy słoiki typu B i C w zasadzie dają jednolity rozkład żetonów. Tak więc przy powtórzeniach eksperymentu z jakimś ustalonym „prawdziwym słoikiem” (lub jeśli pobraliśmy inny herbatnik), równomierny rozkład wiórów dostarczy dowodów na słoiki typu B lub C.
Co dzieje się z tymi wiarygodnymi przedziałami? W rzeczywistości mamy teraz 100% pokrycia „B lub C”! Co z częstymi interwałami? Zasięg jest niezmieniony, ponieważ wszystkie przedziały zawierały zarówno B, jak i C, lub żaden, więc nadal podlega krytyce w odpowiedzi Keitha - 59% i 0% dla zaobserwowanych 3 i 0 żetonów.
Inną kwestią, na którą chciałbym podkreślić, jest to, że Bayesian nie mówi, że „parametr jest losowy”, przypisując rozkład prawdopodobieństwa. Dla Bayesian (cóż, przynajmniej dla mnie) rozkład prawdopodobieństwa jest opisem tego, co wiadomo o tym parametrze. Pojęcie „przypadkowości” tak naprawdę nie istnieje w teorii bayesowskiej, tylko pojęcia „poznania” i „niewiedzy”. „Znani” przechodzą w warunki, a „nieznane” obliczamy prawdopodobieństwa, jeśli są interesujące, i marginalizujemy, jeśli są uciążliwe. Wiarygodny interwał opisuje więc to, co wiadomo o stałym parametrze, uśredniając to, czego nie wiadomo o nim. Gdybyśmy zajęli pozycję osoby, która spakowała słoik z ciasteczkami i wiedziała, że jest to typ A, ich przedział wiarygodności wynosiłby po prostu [A], niezależnie od próbki i bez względu na liczbę pobranych próbek. I byłyby w 100% dokładne!
Przedział ufności oparty jest na „losowości” lub wariacji, która występuje w różnych możliwych próbach. Jako takie jedyne zmiany, które biorą pod uwagę, to zmiany w próbie. Tak więc przedział ufności pozostaje niezmieniony dla osoby, która spakowała słoik z ciasteczkami i nowy, że był to typ A. Więc jeśli wyciągnąłeś herbatnik z 1 chipem ze słoika typu A, częsty stwierdziłby z 70% pewnością, że ten typ był nie A, chociaż wiedzą, że słoik jest typu A! (jeśli utrzymali swoją ideologię i zignorowali zdrowy rozsądek). Aby zobaczyć, że tak jest, należy zauważyć, że nic w tej sytuacji nie zmieniło rozkładu próbkowania - po prostu przyjęliśmy perspektywę innej osoby z informacją o parametrze opartą na „braku danych”.
Przedziały ufności będą się zmieniać tylko w przypadku zmiany danych lub zmian modelu / rozkładu próbkowania. przedziały wiarygodności mogą ulec zmianie, jeśli zostaną wzięte pod uwagę inne istotne informacje.
Zauważ, że to szalone zachowanie z pewnością nie jest tym, co faktycznie zrobiłby zwolennik przedziałów ufności; ale pokazuje słabość filozofii leżącej u podstaw tej metody w konkretnym przypadku. Przedziały ufności działają najlepiej, gdy niewiele wiesz o parametrze poza informacjami zawartymi w zbiorze danych. Ponadto przedziały wiarygodności nie będą w stanie znacznie poprawić przedziałów ufności, chyba że istnieją wcześniejsze informacje, których przedział ufności nie może wziąć pod uwagę, lub znalezienie wystarczających i pomocniczych statystyk jest trudne.
Jak rozumiem: wiarygodny przedział to zestawienie zakresu wartości dla statystyki, która pozostaje prawdopodobna, biorąc pod uwagę konkretną próbkę danych, którą faktycznie zaobserwowaliśmy. Przedział ufności jest określeniem częstotliwości, z jaką prawdziwa wartość leży w przedziale ufności, gdy eksperyment powtarza się wiele razy, za każdym razem z inną próbką danych z tej samej populacji podstawowej.
Zwykle pytanie, na które chcemy odpowiedzieć, brzmi: „jakie wartości statystyki są zgodne z obserwowanymi danymi”, a wiarygodny przedział daje bezpośrednią odpowiedź na to pytanie - prawdziwa wartość statystyki leży w 95% wiarygodnym przedziale z prawdopodobieństwem 95 % Przedział ufności nie daje bezpośredniej odpowiedzi na to pytanie; nie jest słuszne twierdzenie, że prawdopodobieństwo, że prawdziwa wartość statystyki mieści się w 95% przedziale ufności, wynosi 95% (chyba że zdarza się, że pokrywa się z wiarygodnym przedziałem). Jest to jednak bardzo częsta błędna interpretacja częstego przedziału ufności, ponieważ interpretacja ta byłaby bezpośrednią odpowiedzią na pytanie.
Dokument Jayne'a, który omawiam w innym pytaniu, stanowi dobry przykład tego (przykład # 5), w którym konstruowany jest idealnie poprawny przedział ufności, w którym konkretna próbka danych, na których jest oparta, wyklucza jakąkolwiek możliwość prawdziwej wartości statystyki znajdują się w 95% przedziale ufności! Jest to problem tylko wtedy, gdy przedział ufności jest błędnie interpretowany jako zestaw prawdopodobnych wartości statystyki na podstawie konkretnej próbki, którą zaobserwowaliśmy.
Na koniec dnia chodzi o „konie na kursy”, a najlepszy interwał zależy od pytania, na które chcesz odpowiedzieć - po prostu wybierz metodę, która bezpośrednio odpowie na to pytanie.
Podejrzewam, że przedziały ufności są bardziej przydatne podczas analizy [określonych] powtarzalnych eksperymentów (ponieważ jest to tylko założenie leżące u podstaw przedziału ufności), a wiarygodne przedziały są lepsze podczas analizy danych obserwacyjnych, ale to tylko opinia (używam obu rodzajów przedziałów w moja własna praca, ale nie opisałbym siebie jako eksperta w obu).
Więc tak, możesz powiedzieć „Jeśli powtórzysz eksperyment wiele razy, około 95% z 95% CI pokryje prawdziwy parametr”. Chociaż w języku Bayesian można powiedzieć, że „prawdziwa wartość statystyki leży w 95% wiarygodnym przedziale z prawdopodobieństwem 95%”, to samo prawdopodobieństwo 95% (w języku bayesowskim) jest jedynie szacunkiem. (Pamiętaj, że jest to oparte na rozkładzie warunku, biorąc pod uwagę te konkretne dane, a nie na rozkładzie próbkowania). Ten estymator powinien zawierać losowy błąd związany z losową próbką.
Bayesian stara się uniknąć problemu z błędem typu I. Bayesian zawsze mówi, że nie ma sensu mówić o błędzie typu I w języku Bayesian. To nie do końca prawda. Statystycy zawsze chcą zmierzyć możliwość lub błąd, że „Twoje dane sugerują podjęcie decyzji, ale populacja sugeruje inaczej”. Bayesian nie jest w stanie odpowiedzieć (szczegóły pominięto tutaj). Niestety może to być najważniejsza rzecz, na którą statystyk powinien odpowiedzieć. Statystyki nie tylko sugerują decyzję. Statystycy powinni również być w stanie ustalić, jak bardzo decyzja może pójść źle.
Muszę wymyślić poniższą tabelę i terminy, aby wyjaśnić tę koncepcję. Mam nadzieję, że pomoże to wyjaśnić różnicę między przedziałem ufności a wiarygodnym zestawem.
„???????” wyjaśnia, dlaczego nie jesteśmy w stanie ocenić błędu typu I (ani niczego podobnego) w języku Bayesian.
Należy również pamiętać, że w pewnych okolicznościach można użyć wiarygodnych zestawów do przybliżenia przedziałów ufności. Jest to jednak tylko przybliżenie matematyczne. Interpretacja powinna iść z częstym. Interpretacja bayesowska w tym przypadku już nie działa.
Zgadzam się z wnioskiem Dikrana Marsupiala . Jeśli jesteś recenzentem FDA, zawsze chcesz wiedzieć o możliwości zatwierdzenia wniosku o narkotyki, ale tak naprawdę lek nie jest skuteczny. Jest to odpowiedź, której Bayesian nie może udzielić, przynajmniej w klasycznym / typowym języku Bayesian.
Ogólne i spójne zaufanie i wiarygodne regiony. http://dx.doi.org/10.6084/m9.figshare.1528163 z kodem na http://dx.doi.org/10.6084/m9.figshare.1528187
Zawiera opis wiarygodnych przedziałów i przedziałów ufności dla wyboru zestawu wraz z ogólnym kodem R do obliczania zarówno przy uwzględnieniu funkcji prawdopodobieństwa, jak i niektórych zaobserwowanych danych. Ponadto proponuje statystyki testowe, które dają wiarygodne i pewne przedziały ufności o optymalnym rozmiarze, które są ze sobą zgodne.
W skrócie i unikając formuł. Wiarygodny przedział bayesowski opiera się na prawdopodobieństwie parametrów podanych danych . Zbiera parametry o wysokim prawdopodobieństwie do wiarygodnego zestawu / przedziału. 95% wiarygodny przedział zawiera parametry, które razem mają prawdopodobieństwo 0,95 biorąc pod uwagę dane.
Częstościowym przedział ufności opiera się na prawdopodobieństwie danych podanych niektóre parametry . Dla każdego (możliwie nieskończenie wielu) parametru Najpierw generuje zestaw danych, który prawdopodobnie będzie obserwowany przy danym parametrze. Następnie sprawdza dla każdego parametru, czy wybrane dane o wysokim prawdopodobieństwie zawierają dane obserwowane. Jeśli dane o wysokim prawdopodobieństwie zawierają dane obserwowane, odpowiedni parametr jest dodawany do przedziału ufności. Przedział ufności jest zatem zbiorem parametrów, dla których nie możemy wykluczyć możliwości wygenerowania danych przez parametr. Daje to taką zasadę, że przy wielokrotnym stosowaniu do podobnych problemów przedział ufności 95% będzie zawierał prawdziwą wartość parametru w 95% przypadków.
95% wiarygodny zbiór i 95% pewność ustawiony na przykład z ujemnego rozkładu dwumianowego
To bardziej komentarz, ale za długi. W następującym artykule: http://www.stat.uchicago.edu/~lekheng/courses/191f09/mumford-AMS.pdf Mumford ma następujący interesujący komentarz:
Podczas gdy wszystkie te naprawdę ekscytujące zastosowania były wykorzystywane w statystykach, większość samych statystyk, pod przewodnictwem Sir RA Fishera, wiązała ręce za plecami, twierdząc, że statystyki nie można wykorzystać w żadnej, ale całkowicie odtwarzalnej sytuacji, a następnie tylko przy użyciu dane empiryczne. Jest to tak zwana szkoła „częstych”, która walczyła ze szkołą bayesowską, która wierzyła, że można wykorzystać priorytety i znacznie rozszerzyć stosowanie wnioskowania statystycznego. Podejście to zaprzecza, że wnioskowanie statystyczne może mieć cokolwiek wspólnego z rzeczywistą myślą, ponieważ sytuacje z życia codziennego są zawsze zakryte zmiennymi kontekstowymi i nie można ich powtórzyć. Na szczęście szkoła bayesowska nie umarła całkowicie, kontynuując ją DeFinetti, ET Jaynes i inni.