Czy przedziały ufności są przydatne?


11

W statystyce częstokrzyskiej 95% przedział ufności to procedura generowania przedziału, która, jeśli powtórzona nieskończoną liczbę razy, zawierałaby prawdziwy parametr w 95% przypadków. Dlaczego to jest przydatne?

Przedziały ufności są często źle rozumiane. Są to nie przerwa, że możemy być w 95% pewien, że parametr jest (o ile nie używasz podobny Bayesa przedział wiarygodności). Przedziały ufności są dla mnie jak przynęta.

Jedynym przypadkiem, o którym mogę pomyśleć, jest podanie zakresu wartości, dla których nie mogliśmy odrzucić hipotezy zerowej, że parametr jest tą wartością. Czy wartości p nie dostarczyłyby tych informacji, ale lepiej? Bez wprowadzania w błąd?

W skrócie: Dlaczego potrzebujemy przedziałów ufności? W jaki sposób są one właściwie interpretowane, jeśli są przydatne?



Przedział wiarygodności bayesowskiej nie jest przedziałem, w którym możemy być w 95% pewni, że parametr jest
włączony

@MartijnWeterings: chyba że jesteś w 100% pewien swojego wcześniejszego.
Xi'an

@ Xi'an, który działa, gdy parametr jest w 100% pewny, że można rozsądnie uznać go za zmienną losową, a eksperyment przypomina próbkowanie ze wspólnego rozkładu częstotliwości , tzn. Używasz reguły Bayesa jako: bez wyraźnego „wcześniejszego”. To nie to samo dla parametru, który uważa się za stały. Wtedy wierzenia późniejsze wymagałyby od ciebie również „aktualizacji” starego wspólnego rozkładu częstotliwości i . Absurdem jest twierdzić, że aktualizuje „wcześniejsze przekonania”, które były w 100% pewne. P ( θ , x ) P ( θ | x ) = P ( θ , x ) / P ( x ) X θθP(θ,x)P(θ|x)=P(θ,x)/P(x)Xθ
Sextus Empiricus

Odpowiedzi:


10

Tak długo, jak przedział ufności jest traktowany jako losowy (tzn. Patrząc z perspektywy traktowania danych jako zestawu zmiennych losowych, których jeszcze nie widzieliśmy), tak naprawdę możemy tworzyć użyteczne stwierdzenia prawdopodobieństwa na ten temat. Załóżmy, że masz przedział ufności na poziomie dla parametru , a przedział ten ma granice . Następnie możemy powiedzieć, że:1αθL(x)U(x)

P(L(X)θU(X)|θ)=1αfor all θΘ.

Odejście od paradygmatu częstych i marginalizacja ponad dla dowolnego wcześniejszego rozkładu daje odpowiedni (słabszy) marginalny wynik prawdopodobieństwa:θ

P(L(X)θU(X))=1α.

Gdy ustalimy granice przedziału ufności, ustalając dane na , nie odwołujemy się już do tego oświadczenia prawdopodobieństwa, ponieważ teraz naprawiliśmy dane. Jeśli jednak przedział ufności jest traktowany jako przedział losowy, wówczas rzeczywiście możemy wykonać to stwierdzenie prawdopodobieństwa --- tj. Z prawdopodobieństwem parametr będzie się w przedziale (losowym).X=x 1 - α θ1αθ

W statystykach częstych stwierdzenia prawdopodobieństwa są stwierdzeniami o względnych częstotliwościach w nieskończenie powtarzanych próbach. Ale dotyczy to każdego stwierdzenia prawdopodobieństwa w paradygmacie częstokroć, więc jeśli sprzeciwiasz się stwierdzeniom względnej częstotliwości, nie jest to zastrzeżenie specyficzne dla przedziałów ufności. Jeśli wyjdziemy poza paradygmat częstych, możemy słusznie powiedzieć, że przedział ufności zawiera parametr docelowy z pożądanym prawdopodobieństwem, o ile stwierdzenie prawdopodobieństwa jest marginalnie (tj. Nie zależne od danych) i dlatego traktujemy przedział ufności w losowym tego słowa znaczeniu.

Nie wiem o innych, ale wydaje mi się, że jest to dość potężny wynik prawdopodobieństwa i rozsądne uzasadnienie dla tej formy przedziału. Sam jestem stronniczy w stosunku do metod bayesowskich, ale przedziały ufności oparte na wynikach prawdopodobieństwa (w ich losowym sensie) są potężnymi wynikami, których nie należy wąchać.


1
„Wyjście poza paradygmat częstych” nie jest dokładnie problemem? Zasadniczo chcemy przedziału, który zawiera prawdziwą wartość parametru będącego przedmiotem zainteresowania z pewnym prawdopodobieństwem. Żadna analiza częstokrzyska nie może nam tego dać, a niejawna interpretacja tego jako analizy bayesowskiej prowadzi do nieporozumień. Lepiej odpowiedzieć na pytanie bezpośrednio przez wiarygodny przedział bayesowski. Istnieją zastosowania przedziałów ufności, w których wielokrotnie przeprowadzane są „eksperymenty”, np. Kontrola jakości.
Dikran Torbacz

Nie jest to kwestia domyślnej reinterpretacji jako bayesowskiej (ta ostatnia uwarunkowałaby dane, aby uzyskać później). Odpowiedź pokazuje jedynie PO, że możemy przedstawić użyteczne stwierdzenia prawdopodobieństwa dotyczące przedziału ufności. Co do bardziej ogólnych zastrzeżeń do paradygmatu częstych, są one dobre i dobre, ale nie są to zastrzeżenia specyficzne dla przedziałów ufności.
Ben - Przywróć Monikę

1
Jak widać z powyższych stwierdzeń prawdopodobieństwa, że może zagwarantować, że CI zawiera parametr z pewnym prawdopodobieństwem, tak długo jak będziemy patrzeć na to a priori .
Ben - Przywróć Monikę

1
Jeśli wyszedłeś z paradygmatu częstych, ale nie przechodzisz na ramy bayesowskie, jakie to ramy? Nie wyrażałem sprzeciwu wobec częstości, uważam, że powinieneś użyć ram, które najbardziej bezpośrednio odpowiadają na pytanie, które naprawdę chcesz postawić. Zaufanie i wiarygodne odstępy czasu odpowiadają na różne pytania.
Dikran Torbacz

1
@Dikran: Deklaracja prawdopodobieństwa jest zapisana i jest czysto matematyczną instrukcją. Naprawdę nie rozumiem, jak możesz w uzasadniony sposób się temu sprzeciwić.
Ben - Przywróć Monikę

5

Zgadzam się z @Ben powyżej i pomyślałem, że podam prosty przykład, w którym przedział Bayesa w porównaniu do częstości byłby wartościowy w tych samych okolicznościach.

Wyobraź sobie fabrykę z równoległymi liniami montażowymi. Zatrzymanie linii jest kosztowne, a jednocześnie chcą wytwarzać produkty wysokiej jakości. Obawiają się z czasem zarówno fałszywych trafień, jak i fałszywych negatywów. Dla fabryki jest to proces uśredniania: zarówno moc, jak i gwarantowana ochrona przed fałszywymi pozytywami. Przedziały ufności, a także przedziały tolerancji, mają znaczenie dla fabryki. Niemniej jednak maszyny przestaną wyrównywać, czyli , a sprzęt wykrywający będzie obserwował zdarzenia niepożądane. Średni wynik ma znaczenie, podczas gdy konkretny wynik jest szczegółem operacyjnym.θΘ

Po przeciwnej stronie jest jeden klient kupujący jeden produkt lub jedną partię produktów. Nie dbają o powtarzalność linii montażowej. Dbają o jeden zakupiony produkt. Wyobraźmy sobie, że klientem jest NASA i potrzebują produktu, który spełnia specyfikację, powiedzmy Nie dbają o jakość części, których nie kupili. Potrzebują jakiejś formy bayesowskiej. Co więcej, pojedyncza awaria może zabić wielu astronautów i kosztować miliardy dolarów. Muszą wiedzieć, że każda zakupiona część spełnia specyfikacje. Uśrednianie byłoby zabójcze. W przypadku rakiety Saturn V jeden procent defektów oznaczałby 10 000 wadliwych części podczas lotów Apollo. Wymagały 0% wad we wszystkich misjach.γΓ.

Martwisz się o przedział ufności podczas pracy w przestrzeni próbnej, tak jak robi to fabryka. Tworzy przykładową przestrzeń. Martwisz się o wiarygodne interwały podczas pracy w przestrzeni parametrów, tak jak robiłby to klient. Jeśli nie przejmujesz się obserwacjami poza twoimi, to jesteś Bayesianinem. Jeśli troszczysz się o próbki, które nie były widoczne, ale mogły być widoczne, jesteś częstym uczestnikiem.

Czy jesteś zainteresowany długoterminowym uśrednianiem lub konkretnym wydarzeniem?


Czy NASA faktycznie kupuje części w oparciu o interwały Bayesa? Rozumiem twój punkt widzenia, ale czy oni faktycznie to robią?
Aksakal

@Aksakal Nie wiem. Juran oczywiście napisał wspaniałą pracę na temat zapewnienia jakości w NASA, ale nie pamiętam wcale, czy proces testowania był omawiany, ponieważ minęło ponad dziesięć lat, odkąd go przeczytałem. Wiem, że W Edwards Deming był przeciwny przedziałom ufności na korzyść wiarygodnych przedziałów, ale znowu to nie dotyczy bezpośrednio. Sądzę, że i znam ludzi, którzy by wiedzieli, ale w tej chwili nie jest wygodne pytać, że używają metod Frequentist, ponieważ to jest to, w czym trenuje większość ludzi. Używasz młotka, który masz.
Dave Harris

Czy to jednak przypadek „młota”? Może ma to coś wspólnego ze sposobem inżynierii?
Aksakal

@Aksakal Nie mam uprawnień, by się nad tym zastanawiać.
Dave Harris

Powiedzmy, że firma tworzy części, przy zastosowaniu złożonego testu hipotezy poziomie je pod kątem błędów: z nich przechodzi bezbłędnie, a nie. Możesz dać NASA rozsądną gwarancję. Maksymalna liczba produktów, które mogą przypadkowo przejść test (błędnie wzięta pod uwagę bez błędu) to . Wiedząc, że sprzedałeś przedmiotów, możesz obliczyć maksymalne prawdopodobieństwo, że sprzedana część faktycznie nie jest zgodna z alternatywną hipotezą . α H 0 : γ > Γ x y n α x γ ΓnαH0:γ>ΓxynαxγΓ
Sextus Empiricus

4

Należy zauważyć, że dzięki ścisłej definicji przedziału ufności możliwe jest , że są one całkowicie pozbawione znaczenia, tj. Nie informują o parametrze będącym przedmiotem zainteresowania. Jednak w praktyce mają one na ogół bardzo duże znaczenie.

Jako przykład bezsensownego przedziału ufności załóżmy, że mam procedurę, która 95% czasu daje , a 5% czasu daje [ , ], gdzie to dowolna para zmiennych losowych, takich jak . Następnie jest to procedura, która uwzględnia każde prawdopodobieństwo przez co najmniej 95% czasu, więc jest to technicznie prawidłowy przedział ufności dla każdego prawdopodobieństwa. Jeśli jednak powiem, że interwał uzyskany w tej procedurze wynosił dla danego , powinieneś zdać sobie sprawę, że tak naprawdę niczego się nie dowiedziałeś o .[0,1]UminUmaxUmin,Umax U m i n < U m a x [ 0,01 , 0,011 ] p pUmin<Umax[0.01,0.011]pp

Z drugiej strony większość przedziałów ufności jest konstruowana w bardziej użyteczny sposób. Na przykład, jeśli powiedziałem ci, że został utworzony przy użyciu procedury Wald Interval, to wiemy o tym

p^ ˙ N(p,se)

gdzie jest błędem standardowym. To bardzo znaczące stwierdzenie o tym, jak odnosi się do . Przekształcenie tego w przedział ufności jest po prostu próbą uproszczenia tego wyniku dla kogoś, kto nie jest tak zaznajomiony z normalnymi rozkładami. Nie oznacza to również, że jest to narzędzie tylko dla osób, które nie wiedzą o normalnych dystrybucjach; na przykład, percentylowy pasek startowy jest narzędziem do podsumowania błędu między estymatorem a parametrem true, gdy rozkład tego błędu może być niegaussowski.ses sp^p


2

Przedziały ufności są nie tylko przydatne, ale niezbędne w niektórych dziedzinach, takich jak fizyka. Niestety najwięcej hałasu związanego z CI pochodzi od Bayesianów, którzy zostali wciągnięci w fałszywe debaty z Frequentists, zwykle w kontekście „nauk” społecznych i innych dyscyplin podobnych do nauki.

Załóżmy, że mierzę pewną ilość w fizyce, taką jak ładunek elektryczny. Zawsze dostarczałbym mi miarę niepewności wartości, która jest zwykle odchyleniem standardowym. Ponieważ w fizyce błędy są często gaussowskie, przekłada się to bezpośrednio na CI. Jednak gdy błędy nie są gaussowskie, staje się to nieco skomplikowane, niektóre całki muszą zostać ocenione itp. Zwykle nie jest to jednak zbyt ezoteryczne.

Oto krótka prezentacja na temat CI w fizyce cząstek i definicja:

stwierdzenie ilościowe o ułamku razy, że taki przedział zawierałby prawdziwą wartość parametru w dużej liczbie powtarzanych eksperymentów

Zauważ, że w fizyce „powtarzane eksperymenty” mają często dosłowne znaczenie: zakłada się, że można faktycznie powtórzyć eksperymenty na papierze i obserwować tę część. Tak więc CI ma dla ciebie prawie dosłowne znaczenie i jest tylko sposobem na wyrażenie informacji o niepewności pomiaru. To nie jest myślowy eksperyment, nie subiektywna opinia, ani twoje ani moje odczucia dotyczące prawdopodobieństw itp. To jest to, co udało ci się wymyślić z eksperymentów i co powinienem być w stanie zaobserwować, odtwarzając swój eksperyment.


1

Wątek ten szybko przekształcił się w debatę Frequentist vs. Bayesian, co nie jest łatwe do rozwiązania. Matematyka w obu podejściach jest solidna, więc zawsze sprowadza się do preferencji filozoficznych. Częstotliwościowa interpretacja prawdopodobieństwa jako granicy względnej częstotliwości zdarzenia uzasadniona jest silnym prawem dużych liczb; niezależnie od preferowanej interpretacji prawdopodobieństwa, częstotliwość względna zdarzenia zbiega się z prawdopodobieństwem z prawdopodobieństwem 1.

Częstotliwościowe przedziały ufności są rzeczywiście trudniejsze do interpretacji niż wiarygodne przedziały bayesowskie. Traktując nieznaną ilość jako zmienną losową, Bayesianie mogą twierdzić, że jeden przedział zawiera tę wielkość z pewnym prawdopodobieństwem. Częste osoby odmawiają traktowania niektórych wielkości jako zmiennych losowych, a wszelkie równania zawierające tylko stałe mogą być prawdziwe lub fałszywe. Tak więc przy szacowaniu nieznanej stałej częstokształtni muszą związać je przedziałem RANDOM, aby w ogóle uwzględnić prawdopodobieństwo. Zamiast jednego przedziału zawierającego zmienną losową z pewnym prawdopodobieństwem, metoda częstokroć generuje wiele różnych możliwych przedziałów, z których niektóre zawierają nieznaną stałą. Jeśli prawdopodobieństwo pokrycia jest dość wysokie, rozsądnym skokiem wiary jest stwierdzenie, że określony przedział zawiera nieznaną stałą (uwaga, a nie „

Bayesian bał się takim skokiem wiary, jak Frequentist traktuje każdą nieznaną ilość jako zmienną losową. Częsta metoda konstrukcji Neymana ujawniła zawstydzający problem z takimi skokami wiary. Bez aktywnego zapobiegania (patrz Feldman i Cousins, 1997 dla jednego podejścia), rzadkie wyniki mogą generować PUSTE przedziały ufności dla parametru dystrybucji. Taki skok wiary byłby bardzo nierozsądny! Widziałem kilku Bayesian, którzy używają tego przykładu, aby wyśmiewać metody częstokroć, podczas gdy częstokroć zazwyczaj odpowiada „no cóż, nadal mam prawidłowy odstęp czasu przez większość czasu i bez fałszywych założeń”. Zwrócę uwagę, że impas bayesowski / częsty nie jest ważny dla większości stosujących swoje metody.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.