Jakie jest teoretyczne uzasadnienie dla bayesowskich wiarygodnych procedur interwałów?


20

(Aby zobaczyć, dlaczego to napisałem, sprawdź komentarze poniżej mojej odpowiedzi na to pytanie ).

Błędy typu III i teoria decyzji statystycznych

Udzielenie prawidłowej odpowiedzi na złe pytanie jest czasem nazywane błędem typu III. Statystyczna teoria decyzji jest formalizacją procesu decyzyjnego w warunkach niepewności; zapewnia ramy koncepcyjne, które mogą pomóc w uniknięciu błędów typu III. Kluczowym elementem frameworka jest funkcja straty . Przyjmuje dwa argumenty: pierwszy to (odpowiedni podzbiór) prawdziwy stan świata (np. W problemach z szacowaniem parametrów prawdziwa wartość parametru ); drugi jest elementem w zestawie możliwych działań (np. w problemach z oszacowaniem parametrów, estimateθ )θθ^). Wyjście modeluje stratę związaną z każdym możliwym działaniem w odniesieniu do każdego możliwego prawdziwego stanu świata. Na przykład w problemach z oszacowaniem parametrów niektóre dobrze znane funkcje strat to:

  • bezwzględna utrata błędówL(θ,θ^)=|θθ^|
  • kwadratowa utrata błędówL(θ,θ^)=(θθ^)2
  • Hal Varian 's LINEX lossL(θ,θ^;k)=exp(k(θθ^))k(θθ^)1, k0

Analiza odpowiedzi w celu znalezienia pytania

Istnieje przypadek, w którym można próbować uniknąć błędów typu III, koncentrując się na sformułowaniu prawidłowej funkcji straty i przejściu przez resztę podejścia opartego na teorii decyzji (nie wyszczególnione tutaj). To nie jest moje krótkie - w końcu statystycy są dobrze wyposażeni w wiele technik i metod, które działają dobrze, nawet jeśli nie wywodzą się z takiego podejścia. Wydaje mi się jednak, że końcowy wynik jest taki, że zdecydowana większość statystyk nie wie i nie przejmuje się teorią decyzji statystycznych i myślę, że ich brakuje. Tym statystykom argumentowałbym, że powodem, dla którego mogą uznać teorię decyzji statystycznych za wartościową pod względem uniknięcia błędu typu III, jest to, że zapewnia ona ramy, w których można zapytać o każdą proponowaną procedurę analizy danych:z jaką funkcją straty (jeśli występuje) optymalnie radzi sobie procedura? Czyli w jakiej konkretnie sytuacji decyzyjnej stanowi najlepszą odpowiedź?

Spodziewana strata tylna

Z perspektywy bayesowskiej wystarczy funkcja straty. Możemy bardzo dużo pominąć resztę teorii decyzji - niemal z definicji, najlepszą rzeczą do zrobienia jest, aby zminimalizować posterior oczekiwana strata, to znaczy znaleźć akcję który minimalizuje .aL~(a)=ΘL(θ,a)p(θ|D)dθ

(A jeśli chodzi o perspektywy nie Bayesowskie? Cóż, twierdzenie częstokroć teorii decyzji - a konkretnie Twierdzenia Kompletnej Klasy Walda - że optymalnym działaniem zawsze będzie minimalizowanie bocznej oczekiwanej straty Bayesa względem niektórych (być może niewłaściwych) Trudność z tym wynikiem polega na tym, że jest to twierdzenie o istnieniu, które nie daje wskazówek co do tego, przed użyciem, ale owocnie ogranicza klasę procedur, które możemy „odwrócić”, aby dowiedzieć się, jakie dokładnie jest to pytanie, że jesteśmy w szczególności, pierwszym krokiem w odwróceniu dowolnej procedury nie bayesowskiej jest ustalenie, która (jeśli w ogóle) procedura bayesowska powiela lub przybliża.)

Hej Cyan, wiesz, że to jest strona z pytaniami i odpowiedziami, prawda?

Co prowadzi mnie - wreszcie - do pytania statystycznego. W statystyce bayesowskiej, gdy podaje się oszacowania przedziałów dla parametrów jednowymiarowych, dwie popularne procedury przedziałów wiarygodności to wiarygodny przedział oparty na kwantach i wiarygodny przedział o największej gęstości tylnej. Jakie funkcje utraty powodują te procedury?


Bardzo dobrze. Ale czy są to jedyne funkcje strat uzasadniające te procedury?
gość

1
@Cyan >> Dziękuję za pytanie i odpowiedź na pytanie dla mnie :) Przeczytam to wszystko i głosuję za każdym razem, gdy będzie to możliwe.
Stéphane Laurent,

4
Ciekawy cytat z teorii decyzji statystycznych Bergera i analizy bayesowskiej : „nie postrzegamy wiarygodnych zestawów jako mających wyraźną rolę teoretyczną w podejmowaniu decyzji, dlatego jesteśmy ostrożni w podejściu do„ optymalności ”wyboru wiarygodnego zestawu”
Simon Byrne,

1
@Simon Byrne >> 1985 był dawno temu; Zastanawiam się, czy on nadal tak myśli.
Cyan

1
@Cyan: Nie wiem, ale teoria decyzji to jedna z części statystyki bayesowskiej, która niewiele się zmieniła w ciągu ostatnich 27 lat (było kilka interesujących wyników, ale książka Bergera nadal jest standardowym odniesieniem), szczególnie w porównaniu z minimax popularności daje statystyki częste.
Simon Byrne

Odpowiedzi:


15

W estymacji interwału jednowymiarowego zestawem możliwych działań jest zestaw uporządkowanych par określających punkty końcowe interwału. Niech element tego zestawu będzie reprezentowany przez .(a,b), ab

Najwyższe odstępy gęstości tylnej

Niech tylna gęstość będzie . Najwyższe przedziały gęstości tylnej odpowiadają funkcji straty, która karze przedział, który nie zawiera prawdziwej wartości, a także penalizuje przedziały proporcjonalnie do ich długości:f(θ)

LHPD(θ,(a,b);k)=I(θ[a,b])+k(ba),0<kmaxθf(θ) ,

gdzie jest funkcją wskaźnika . Daje to oczekiwaną utratę tylnejI()

L~HPD((a,b);k)=1Pr(aθb|D)+k(ba) .

Ustawienie daje warunek konieczny dla lokalne optimum we wnętrzu przestrzeni parametrów: - dokładnie reguła dla przedziałów HPD, zgodnie z oczekiwaniami.f(a)=f(b)=kaL~HPD=bL~HPD=0f(a)=f(b)=k

Forma daje pewien wgląd w to, dlaczego przedziały HPD nie są niezmienne dla monotonicznego wzrostu parametru. -kosmiczna HPD przedział przekształcony przestrzeni jest różne od -kosmiczna HPD przedział ponieważ dwa okresy odpowiadają różne funkcje straty: the -kosmiczna HPD odstęp odpowiada kara za przekształconą długość .g(θ)θg(θ)g(θ)g(θ)k(g(b)-g(a))L~HPD((a,b);k)g(θ)θg(θ)g(θ)g(θ)k(g(b)g(a))

Wiarygodne przedziały oparte na kwantach

Rozważ oszacowanie punktu za pomocą funkcji straty

Lq(θ,θ^;p)=p(θ^θ)I(θ<θ^)+(1p)(θθ^)I(θθ^), 0p1 .

Następna oczekiwana strata to

L~q(θ^;p)=p(θ^E(θ|θ<θ^,D))+(1p)(E(θ|θθ^,D)θ^) .

Ustawienie daje niejawne równanieddθ^L~q=0

Pr(θ<θ^|D)=p ,

to znaczy optymalny jest % kwantylem rozkładu tylnego, zgodnie z oczekiwaniami. (100s)θ^(100p)

Tak więc, aby uzyskać oszacowania przedziałów oparte na kwantylu, funkcją straty jest

LqCI(θ,(a,b);pL,pU)=Lq(θ,a;pL)+Lq(θ,b;pU) .


1
Innym sposobem na zmotywowanie tego jest ponowne zapisanie funkcji straty jako (ważonej) sumy szerokości przedziału powiększonej o ewentualną odległość, o jaką przedział nie pokrywa prawdziwej . θ
gość

Czy istnieje inny sposób myślenia o interwałach opartych na kwantach, które nie odnoszą się bezpośrednio do kwantyli ani długości interwału. Miałem nadzieję na coś w rodzaju „interwał kwantylu maksymalizuje / minimalizuje średnią / minimum / maksimum / itd. Coś-miary”
Rasmus Bååth,

@ RasmusBååth, w zasadzie pytasz: „jakie są niezbędne warunki dla funkcji straty dla interwałów kwantowych, aby być rozwiązaniem dla minimalizacji oczekiwanej straty tylnej?” Moją intuicją, po prostu ze sposobu, w jaki matematyka działa w kierunku do przodu, jest to, że to w zasadzie wszystko. Jednak tego nie udowodniłem.
Cyan

Nie jestem więc pewien funkcji utraty, ale znam procedurę, która w zależności od funkcji utraty punktu spowoduje HPD lub interwał kwantylu. Zakładam, że masz próbek losowych remisu z tylnej. 1. Wybierz punkt o najniższej utracie tylnej i dodaj ten punkt do odstępu. 2. Usuń ten punkt z , z powodu tego zdejmowania tylnej strata dla pozostałych punktów w może teraz zmiana (w zależności od ). 3. Bądź szczęśliwy, jeśli interwał ma wymagany zasięg, w przeciwnym razie powtórz od (1). L = L0 daje HPD, L = L1 daje interwał kwantylu. s s s s LLssssL
Rasmus Bååth

5
tylko wspominając, że sekcja 5.5.3 Bayesian Choice obejmuje oparte na stratach wyprowadzanie wiarygodnych zestawów ...
Xi'an

1

Odstępy minimalnego rozmiaru

Jednym oczywistym wyborem funkcji straty do wyboru przedziału (zarówno bayesowskiego, jak i częstokształtnego) jest użycie wielkości przedziałów mierzonych w kategoriach rozkładów krańcowych. Dlatego zacznij od żądanej właściwości lub funkcji straty i uzyskaj optymalne odstępy czasu. Tak się zwykle nie dzieje, czego przykładem jest niniejsze pytanie, nawet jeśli jest to możliwe. W przypadku wiarygodnych zbiorów bayesowskich odpowiada to zminimalizowaniu wcześniejszego prawdopodobieństwa interwału lub maksymalizacji względnego przekonania, np. Jak przedstawiono w Evans (2016). Rozmiar może być również wykorzystany do wybrania częstych zestawów zaufania (Schafer 2009). Oba podejścia są powiązane i można je dość łatwo wdrożyć za pomocą reguł decyzyjnych, które preferencyjnie obejmowały decyzje z dużymi punktowymi informacjami obustronnymi (Bartels 2017).

Bartels, C., 2017. Wykorzystanie wcześniejszej wiedzy w testach częstych. figshare. https://doi.org/10.6084/m9.figshare.4819597.v3

Evans, M., 2016. Mierzenie dowodów statystycznych przy użyciu względnego przekonania. Czasopismo o biotechnologii obliczeniowej i strukturalnej, 14, s. 91–96.

Schafer, CM i Stark, PB, 2009. Konstruowanie regionów zaufania o optymalnej oczekiwanej wielkości. Journal of the American Statistics Association, 104 (487), str. 1080-1089.


Widzę, że cytujesz sugestię Evansa według Keitha O'Rourke'a ( andrewgelman.com/2016/07/07/17/… ). Naprawdę lubię rzeczy Evansa.
Cyjan

Bardzo się cieszę, że Keith poinformował mnie o pracy, która zaczyna się inaczej, ale kończy się na podobnych wnioskach! Ważne, aby to cytować.
user36160
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.