W jakich warunkach estymatory punktowe Bayesa i częstokroć się pokrywają?

17

W przypadku płaskiego przejęcia estymatory ML (częste - maksymalne prawdopodobieństwo) i MAP (bayesowskie - maksymalne a posteriori) pokrywają się.

Mówiąc bardziej ogólnie, mówię o estymatorach punktowych wyprowadzonych jako optymalizatory niektórych funkcji strat. To znaczy

\hat{x} (.) = argmin E (L (X - \hat{x} (y)) | y) (Bayesian)

$\hat x(\,. ) = \text{argmin} \; \mathbb{E} \left( L(X-\hat x(y)) \; | \; y \right) \qquad \; \,\text{ (Bayesian) }$

\hat{x} (.) = argmin E (L (x - \hat{x} (Y)) | x) (Frequentist)

$\hat x(\,. ) = \text{argmin} \; \mathbb{E} \left( L(x-\hat x(Y)) \; | \; x \right) \qquad \text{(Frequentist)}$

gdzie $\mathbb{E}$ jest operator wartości oczekiwanej, $L$ jest funkcją strat (zminimalizowane na $\hat x(y)$ jest estymatorem, biorąc pod uwagę dane $y$ , z parametrów $x$ i zmiennych losowych są oznaczone dużymi literami.

Czy ktoś wie żadnych warunków na $L$ , PDF i , nałożone liniowości i / lub nieobciążoności, gdzie estymatory zbiegnie? $x$ $y$

Edytować

Jak zauważono w komentarzach, wymóg bezstronności, taki jak bezstronność, jest konieczny, aby problem Frequentist miał sens. Płaskie priory mogą być również wspólną cechą.

Poza ogólnymi dyskusjami zawartymi w niektórych odpowiedziach, tak naprawdę chodzi o podanie rzeczywistych przykładów . Myślę, że ważny jest regresja liniowa:

OLS, jest NIEBIESKI ( twierdzenie Gaussa-Markowa ), tj. minimalizuje częste MSE wśród estymatorów liniowo-obiektywnych. $\mathbf{\hat{x}} = (\mathbf{D}'\mathbf{D})^{-1}\mathbf{D}'\mathbf{y}$
jeśli jest gaussowski, a pierwszeństwo jest płaskie, to średnia „tylna” minimalizuje średnią stratę bayesowską dla dowolnej funkcji wypukłej straty. $(X,Y)$ $\mathbf{\hat{x}} = (\mathbf{D}'\mathbf{D})^{-1}\mathbf{D}'\mathbf{y}$

Tutaj wydaje się być znany jako matryca danych / projektu odpowiednio w języku lingwistycznym / bayesowskim. $\mathbf{D}$

— Patrick
źródło

Zakładam, że chcesz, aby odpowiedź przyjęła mieszkanie przed? W przeciwnym razie nie można oczywiście oczekiwać, że szacunki będą takie same w interesujących ogólnych przypadkach.

— user56834,

2

Odpowiedź na to pytanie nie jest prosta, ale jest to obecnie bardzo gorący temat badawczy, patrz na przykład praca Judith Rousseau w tej dziedzinie: ceremade.dauphine.fr/~rousseau/publi.html

— Jeremias K

@JeremiasK, może możesz wyjaśnić coś na ten temat w odpowiedzi?

— user56834,

1

@ Programmer2134 Chciałbym, gdybym czuł się wystarczająco dobrze z materiałem, ale nie mam. Wiem, że to, co robią, polega na uzyskaniu bayesowskiego odpowiednika CLT, z pewnymi „wskaźnikami koncentracji tylnej”, która mówi, jak szybko parametr posterior koncentruje się na punkcie w przestrzeni parametrów, gdy zwiększasz wielkość próbki, a następnie w zasadzie kończysz znaleźć gwarancje spójności typu częstokroć dla estymatorów bayesowskich.

— Jeremias K,

7

Pytanie jest interesujące, ale nieco beznadziejne, chyba że doprecyzowano pojęcie estymatora częstokroć . To na pewno nie jest jeden zestaw w pytaniu , ponieważ odpowiedź na minimalizację jest dla wszystkich „s Jak wskazano wodpowiedzi Programmer2134 użytkownika. Podstawową kwestią jest to, że nie ma jednego estymatora częstości dla problemu estymacji, bez wprowadzenia dodatkowych ograniczeń lub klas estymatorów. Bez nich wszystkie estymatory Bayesa są także estymatorami częstościowymi.

\hat{x} (.) = argmin E (L (x, \hat{x} (Y)) | x)

$\hat x(\,. ) = \text{argmin} \; \mathbb{E} \left( L(x,\hat x(Y)) \; | \; x \right)$

\hat{x} (y) = x

$\hat{x}(y)=x$

y

$y$

Jak wskazano w komentarzach, bezstronność może być takim ograniczeniem, w którym to przypadku estymatory Bayesa są wykluczone. Ale to często spotykane pojęcie koliduje z innymi pojęciami częstymi takimi jak

dopuszczalność, ponieważ zjawisko Jamesa-Steina wykazało, że obiektywne estymatory mogą być niedopuszczalne (w zależności od funkcji straty i wymiaru problemu);
niezmienność w trakcie ponownej parametryzacji, ponieważ bezstronność nie podlega transformacji.

Plus bezstronność dotyczy tylko ograniczonej klasy problemów z oszacowaniem. Rozumiem przez to, że klasa obiektywnych estymatorów określonego parametru lub transformacji jest przez większość czasu pusta. $\theta$ $h(\theta)$

Mówiąc o dopuszczalności, innym częstym pojęciu, istnieją ustawienia, dla których jedynymi dopuszczalnymi estymatorami są estymatory Bayesa i odwrotnie. Ten typ ustawień odnosi się do kompletnych twierdzeń klasowych ustalonych przez Abrahama Walda w latach pięćdziesiątych. (To samo dotyczy najlepszych niezmienników estymatorów, którymi są Bayes zgodnie z odpowiednią właściwą miarą Haara).

— Xi'an
źródło

1

Czy istnieją inne kanoniczne sposoby ograniczenia klasy estymatorów, tak aby problem minimalizacji był dobrze zdefiniowany, a nie zdegenerowany (poza wymaganiem bezstronności), które są bliższe zagadnieniu bayesowskiemu?

— user56834

3

Ogólnie rzecz biorąc, estymatorzy częstości i bayesowscy nie pokrywają się, chyba że wcześniej użyjesz zdegenerowanego mieszkania. Główny powód jest następujący: estymatorzy często dążą do zachowania obiektywności. Na przykład osoby często odwiedzające często próbują znaleźć obiektywny estymator minimalnej wariancji ( http://en.wikipedia.org/wiki/Minimum-variance_unnoś__imimator ). Tymczasem wszystkie nie-zdegenerowane estymatory Bayesa są stronnicze (w częstym sensie stronniczości). Zobacz na przykład http://www.stat.washington.edu/~hoff/courses/581/LectureNotes/bayes.pdf , Twierdzenie 5.

Podsumowując: Większość popularnych estymatorów częstokroć dąży do zachowania obiektywności, podczas gdy wszystkie estymatory Bayesa są stronnicze. Tak więc Bayes i estymatorzy częstokrzyści rzadko się pokrywają.

— Stefan Wager
źródło

5

Zastanawiam się nad poprawnością tych twierdzeń, biorąc pod uwagę, że „większość popularnych estymatorów częstokroć” to ML i są one tendencyjne (w zależności od parametryzacji). Ponadto dobry częsty jest głęboko zaniepokojony stratą i dopuszczalnością; kluczowa część tej teorii uznaje, że dopuszczalne procedury pochodzą z procedur Bayesa, stąd - przynajmniej w szerokim tego słowa znaczeniu - sedno teorii częstych opiera się na estymatorach Bayesa! Mogę cię przekonać do twojego punktu widzenia, jeśli potrafisz wyjaśnić „często”, „większość” i „rzadko” i poprzeć to dowodami.

— whuber

@whuber Dobra uwaga - moja odpowiedź była może nieco uproszczona. Prawdziwi częstokroć często stosują tendencyjne procedury (np. Regresja karna L1 lub L2), a nawet mogą formalnie stosować procedury bayesowskie. Sądzę jednak, że obiektywne estymatory są punktem wyjścia dla najczęściej przeprowadzanych analiz. Na przykład pierwszy mięsisty rozdział Teorii szacowania punktów autorstwa Lehmanna i Caselli (jeden ze standardowych tekstów na temat szacowania częstych) dotyczy przede wszystkim bezstronności.

— Stefan Wager

5

Cóż, OK (+1). Ale uważam twój ostatni argument za zabawny: w końcu książka musi gdzieś zacząć i zwykle ten punkt wyjścia wybiera się ze względu na jej prostotę i dostępność, a nie ze względu na jej praktyczne znaczenie. Z tego samego powodu można twierdzić, że większość współczesnej matematyki dotyczy przede wszystkim logiki i teorii mnogości, ponieważ często stanowią one pierwszy rozdział wielu podręczników do matematyki! Lepszym odzwierciedleniem praktyki statystycznej może być ostatnia połowa Lehmann & Casella - spójrz na to, co tam jest omawiane :-).

— whuber

„chyba że wcześniej użyjesz zdegenerowanego mieszkania”. Cóż, jest to ciekawy szczególny przypadek do przemyślenia, prawda?

— user56834,

Jego pytanie dotyczy także tego, czy teoretycznie będą się one zgadzać w określonych warunkach, a nie czy estymatory stosowane w praktyce są zbieżne.

— user56834,

3

To nie jest pełna odpowiedź, ale podczas tych dwóch „s wyglądają bardzo podobnie, ale różnią się zasadniczo w taki sposób: jeden Bayesa minimalizuje wyrażenie w odniesieniu do pojedynczej wartości (czyli wartość , w zależności od ). $\text{argmin}$ $\hat x(y)$ $y$

Ale Frequentist musi zminimalizować funkcję straty w odniesieniu do pojedynczej wartości dla każdej wartości, którą może przyjąć, nie znając . To dlatego, że minimum funkcji w zależności od , chociaż należy zminimalizować bez znajomości . (Zauważ, że jeśli chcemy po prostu zminimalizować $x$ $x$ $f(x,\hat x)=E(L(x-\hat x(Y))|x)$ $x$ $x$ $f(x, \hat x)$ wrt , chcemy po prostu uzyskać wartość zminimalizowanie ). częstościowym problemem jest zatem niezdefiniowane. Nie jestem pewien, czy można w ogóle dobrze to zdefiniować. $\hat x$ $\hat x = x$

— użytkownik56834
źródło

1

Słuszne uwagi. Myślę, że masz rację co do częstego problemu. Sposób, aby uczynić go dobrze postawionym, polega na ograniczeniu klasy estymatorów. Od Lehmann & Casella: „Do tej pory zajmowaliśmy się znalezieniem estymatorów, które minimalizują ryzyko R (θ, δ) przy każdej wartości θ. Było to możliwe tylko poprzez ograniczenie klasy estymatorów do uwzględnienia przez wymóg bezstronności, taki jak jako bezstronność lub równoważność ”.

— Patrick,

1

Może nie istnieć odpowiedź na to pytanie.

Alternatywą może być zapytanie o metody skutecznego ustalenia dwóch oszacowań dla każdego problemu. Metody bayesowskie są bardzo zbliżone do tego ideału. Jednakże, chociaż metody minimax można zastosować do ustalenia częstościowego oszacowania punktowego, ogólnie stosowanie metody minimax pozostaje trudne i zwykle nie jest stosowane w praktyce.

Inną alternatywą byłoby przeformułowanie pytania o warunki, w jakich estymatory bayesowskie i częstokrzyskie zapewniają „spójne” wyniki i próbują znaleźć metody efektywnego obliczania tych estymatorów. Przyjmuje się, że „spójny” sugeruje, że estymatory bayesowskie i częstokrzyskie wywodzą się ze wspólnej teorii i że dla obu estymatorów zastosowano to samo kryterium optymalności. To bardzo różni się od próby przeciwstawienia się statystykom bayesowskim i częstokrzyskim i może sprawić, że powyższe pytanie stanie się zbędne. Jednym z możliwych podejść jest ukierunkowanie, zarówno w przypadku częstego, jak i przypadku bayesowskiego, na zestawy decyzji, które minimalizują straty dla danego rozmiaru, tj. Zgodnie z propozycją

Schafer, Chad M. i Philip B. Stark. „Konstruowanie regionów zaufania o optymalnej oczekiwanej wielkości”. Journal of American Statistics Association 104.487 (2009): 1080-1089.

Okazuje się, że jest to możliwe - zarówno w przypadku częstego, jak i bayesowskiego - poprzez włączenie preferencji obserwacji i parametrów z dużą punktową wzajemną informacją. Zestawy decyzji nie będą identyczne, ponieważ zadawane pytanie jest inne:

Niezależnie od tego, jaki jest prawdziwy parametr, ogranicz ryzyko podejmowania błędnych decyzji (pogląd częstych)
Biorąc pod uwagę niektóre spostrzeżenia, ogranicz ryzyko włączenia niewłaściwych parametrów do zestawu decyzji (widok bayesowski)

Jednak zestawy będą się na siebie w dużym stopniu nakładać i w niektórych sytuacjach staną się identyczne, jeśli zostaną użyte płaskie priory. Pomysł został omówiony bardziej szczegółowo wraz ze skutecznym wdrożeniem w

Bartels, Christian (2015): Ogólne i konsekwentne zaufanie oraz wiarygodne regiony. figshare. https://doi.org/10.6084/m9.figshare.1528163

W przypadku priorytów informacyjnych zestawy decyzji różnią się bardziej (co jest powszechnie znane i zostało wskazane w pytaniu i odpowiedziach powyżej). Jednak w spójnych ramach uzyskuje się częste testy, które gwarantują pożądane pokrycie częstych, ale uwzględniają wcześniejszą wiedzę.

Bartels, Christian (2017): Wykorzystanie wcześniejszej wiedzy w testach częstych. figshare. https://doi.org/10.6084/m9.figshare.4819597

W proponowanych metodach wciąż brakuje skutecznego wdrożenia marginalizacji.

— user36160
źródło

Czy mógłbyś rozwinąć swoje pytanie bardziej szczegółowo, kiedy byłyby one „spójne”?

— user56834,

@ Programmer2134. Dzięki, próbowałem wyjaśnić w odpowiedzi.

— user36160