Czy właściwość niezmienniczości estymatora ML jest bezsensowna z perspektywy Bayesa?

Casella i Berger podają właściwość niezmienniczości estymatora ML w następujący sposób:

Wydaje mi się jednak, że określają „prawdopodobieństwo” $\eta$ w całkowicie doraźny i bezsensowny sposób:

Jeśli zastosuję podstawowe zasady teorii prawdopodobieństwa do prostego przypadku, gdzieś $\eta=\tau(\theta)=\theta^2$ Zamiast tego otrzymuję następujące informacje:

L (η | x) = p (x | θ^{2} = η) = p (x | θ = - \sqrt{η} \lor θ = \sqrt{η}) =: p (x | A \lor B)

$L(\eta|x)=p(x|\theta^2=\eta)=p(x|\theta = -\sqrt \eta \lor \theta = \sqrt \eta)=:p(x|A \lor B)$ Teraz stosując twierdzenie Bayesa, a potem fakt

A

$A$ i

B

$B$ wzajemnie się wykluczają, abyśmy mogli zastosować regułę sumy:

p (x | A \lor B) = p (x) \frac{p (A \lor B | x)}{p (A \lor B)} = p (x | A \lor B) = p (x) \frac{p (A | x) + p (B | x)}{p (A) + p (B)}

$p(x|A\lor B)=p(x)\frac {p(A\lor B|x)}{p(A\lor B)}=p(x|A\lor B)=p(x)\frac {p(A|x)+p(B|x)}{p(A)+p(B)}$

Teraz ponownie zastosujemy twierdzenie Bayesa do terminów w liczniku:

p (x) \frac{p (A) \frac{p (x | A)}{p (x)} + p (B) \frac{p (x | B)}{p (x)}}{p (A) + p (B)} = \frac{p (A) p (x | A) + p (B) p (x | B)}{p (A) + p (B)}

$p(x)\frac {p(A)\frac {p(x|A)}{p(x)}+p(B)\frac {p(x|B)}{p(x)}}{p(A)+p(B)}=\frac {p(A)p(x|A)+p(B)p(x|B)}{p(A)+p(B)}$

Jeśli chcemy zmaksymalizować ten wrt do $\eta$ w celu uzyskania oszacowania maksymalnego prawdopodobieństwa $\eta$ , musimy zmaksymalizować:

p_{θ} (- \sqrt{η}) p (x | θ = - \sqrt{η}) + p_{θ} (\sqrt{η}) p (x | θ = \sqrt{η})

$p_\theta(-\sqrt \eta)p(x|\theta = -\sqrt \eta)+p_\theta(\sqrt \eta)p(x|\theta = \sqrt \eta)$

Czy Bayes uderza ponownie? Czy Casella i Berger się mylą? A może się mylę?

— użytkownik56834
źródło

Możliwy duplikat właściwości Niezmienniczości estymatora największego prawdopodobieństwa?

— Sextus Empiricus

Część formalna po „Jeśli zastosuję podstawowe zasady teorii prawdopodobieństwa do prostej sprawy, o której mowa $\eta=\tau(\theta)=\theta^2$ „ nie zmienia pytania. Sprawa jest w pełni ujęta w doskonałej odpowiedzi Samuela Benidta. Wartości prawdopodobieństwa (aw konsekwencji maksimum) nie zmieniają się z powodu mapowania. Tak, należy zachować szczególną ostrożność, jeśli mapowanie jest nie jeden na jednego, ale to zupełnie inna kwestia niż zmiany zachodzące z powodu rozkładów prawdopodobieństwa po zastosowaniu transformacji

— Sextus Empiricus

Rozumiem twoją frustrację, Programmer2134 (i @MartijnWeterings). Należy jednak uważać na ton w swoich komentarzach. Produktywne rozmowy są możliwe tylko wtedy, gdy przestrzegamy naszej zasady be be nice . Jeśli nie jesteś zainteresowany prowadzeniem produktywnych rozmów, musisz opublikować te pytania w innym miejscu.

— gung - Przywróć Monikę

@gung, masz całkowitą rację. I żałuję, że zareagowałem tym tonem. Od teraz przestanę to robić. Przepraszam za to. Jeśli chodzi o rozmowę, jestem zainteresowany prowadzeniem produktywnych, ale czułem, że reakcje ludzi na kilka zadanych przeze mnie pytań były w większości bezproduktywne. Niemniej następnym razem odpowiem inaczej.

— user56834

Dziękuję Ci. Najlepiej jest założyć, że ludzie reagują w dobrej wierze. Istnieje (stosunkowo niewiele, IMHO) sytuacje, w których nie ma tu ludzi, ale nawet wtedy czasami można ich namówić do współpracy.

— gung - Przywróć Monikę

Jak mówi Xi'an, pytanie jest dyskusyjne, ale myślę, że wiele osób zostało jednak zmuszonych do rozważenia oszacowania maksymalnego prawdopodobieństwa z perspektywy Bayesa z powodu stwierdzenia, które pojawia się w literaturze i w Internecie: „ maksymalne prawdopodobieństwo oszacowanie jest szczególnym przypadkiem szacunku bayesowskiego maksimum a posteriori, gdy poprzedni rozkład jest jednolity ”.

Powiedziałbym, że z perspektywy bayesowskiej estymator największego prawdopodobieństwa i jego właściwość niezmienniczości mogą mieć sens, ale rola i znaczenie estymatorów w teorii bayesowskiej jest bardzo odmienne od teorii częstych. I ten konkretny estymator zwykle nie jest zbyt rozsądny z perspektywy bayesowskiej. Dlatego. Dla uproszczenia rozważę jednowymiarowy parametr i transformacje one-one.

Przede wszystkim dwie uwagi:

Przydatne może być rozważenie parametru jako ilości żyjącej w ogólnym kolektorze, na którym możemy wybrać różne układy współrzędnych lub jednostki miary. Z tego punktu widzenia zmiana parametrów jest po prostu zmianą współrzędnych. Na przykład temperatura potrójnego punktu wody jest taka sama, niezależnie od tego, czy wyrażamy ją jako $T=273.16$ (K), $t=0.01$ (° C), $\theta=32.01$ (° F) lub $\eta=5.61$ (skala logarytmiczna). Nasze wnioski i decyzje powinny być niezmienne w odniesieniu do zmian współrzędnych. Oczywiście niektóre układy współrzędnych mogą być bardziej naturalne niż inne.
Prawdopodobieństwa dla wielkości ciągłych zawsze odnoszą się do przedziałów (a dokładniej zestawów) wartości takich wielkości, nigdy do konkretnych wartości; chociaż w pojedynczych przypadkach możemy na przykład rozważyć zestawy zawierające tylko jedną wartość. Notacja gęstości prawdopodobieństwa $\mathrm{p}(x)\,\mathrm{d}x$ , w stylu integralnym Riemanna, mówi nam, że
(a) wybraliśmy układ współrzędnych $x$ na kolektorze parametrów,
(b) ten układ współrzędnych pozwala mówić o przedziałach o równej szerokości,
(c) prawdopodobieństwo, że wartość leży w małym przedziale $\Delta x$ jest w przybliżeniu $\mathrm{p}(x)\,\Delta x$ , gdzie $x$ jest punktem w przedziale.
(Alternatywnie możemy mówić o podstawowej miary Lebesgue'a $\mathrm{d}x$ i odstępy równej miary, ale istota jest taka sama.)

Dlatego oświadczenie typu „ $\mathrm{p}(x_1) > \mathrm{p}(x_2)$ „nie oznacza, że prawdopodobieństwo $x_1$ jest większy niż dla $x_2$ , ale to prawdopodobieństwo, że $x$ leży w niewielkiej odległości $x_1$ jest większe niż prawdopodobieństwo, że leży w przedziale o równej szerokości wokół $x_2$ . Takie oświadczenie jest zależne od współrzędnych.

Zobaczmy (częsty) punkt widzenia maksymalnego prawdopodobieństwa
Z tego punktu widzenia mówimy o prawdopodobieństwie wartości parametru $x$ jest po prostu bez znaczenia. Kropka. Chcielibyśmy wiedzieć, jaka jest prawdziwa wartość parametru i jaka jest wartość $\tilde{x}$ co daje najwyższe prawdopodobieństwo danych $D$ powinien intuicyjnie znajdować się niedaleko znaku:

\begin{matrix} (*) & \tilde{x} := \arg max_{x} p (D ∣ x) . \end{matrix}

$\tilde{x} := \arg\max_x \mathrm{p}(D \mid x)\tag{*}\label{ML}.$ Jest to estymator największego prawdopodobieństwa.

Estymator wybiera punkt na kolektorze parametrów i dlatego nie zależy od żadnego układu współrzędnych. Stwierdzono inaczej: Każdy punkt na kolektorze parametrów jest powiązany z liczbą: prawdopodobieństwo danych $D$ ; wybieramy punkt, który ma najwyższy powiązany numer. Ten wybór nie wymaga układu współrzędnych ani miary bazowej. Z tego powodu estymator ten jest niezmienny w parametryzacji, a ta właściwość mówi nam, że nie jest to prawdopodobieństwo - jak pożądane. Ta niezmienność pozostaje, jeśli weźmiemy pod uwagę bardziej złożone transformacje parametrów, a prawdopodobieństwo profilu wspomniane przez Xi'an ma w tym względzie pełny sens.

Zobaczmy punkt bayesowski
Z tego punktu widzenia zawsze sensowne jest mówienie o prawdopodobieństwie dla parametru ciągłego, jeśli nie jesteśmy tego pewni, zależnie od danych i innych dowodów $D$ . Piszemy to jako

\begin{matrix} (**) & p (x ∣ D) d x \propto p (D ∣ x) p (x) d x . \end{matrix}

$\mathrm{p}(x \mid D)\,\mathrm{d}x \propto \mathrm{p}(D \mid x)\, \mathrm{p}(x)\,\mathrm{d}x.\tag{**}\label{PD}$ Jak zauważono na początku, prawdopodobieństwo to odnosi się do przedziałów na kolektorze parametrów, a nie do pojedynczych punktów.

Idealnie powinniśmy zgłosić naszą niepewność, określając pełny rozkład prawdopodobieństwa $\mathrm{p}(x \mid D)\,\mathrm{d}x$ dla parametru. Pojęcie estymatora jest więc wtórne z perspektywy Bayesa.

Pojęcie to pojawia się, kiedy należy wybrać jeden punkt na kolektorze parametrów dla jakiegoś określonego celu lub przyczyny, mimo że prawdziwym punktem jest nieznany. Ten wybór jest dziedziną teorii decyzji [1], a wybrana wartość jest właściwą definicją „estymatora” w teorii Bayesa. Teoria decyzji mówi, że musimy najpierw wprowadzić funkcję użyteczności $(P_0,P)\mapsto G(P_0; P)$ co mówi nam, ile zyskujemy, wybierając punkt $P_0$ na kolektorze parametrów, gdy jest to prawda $P$ (alternatywnie możemy pesymistycznie mówić o funkcji straty). Ta funkcja będzie miała inne wyrażenie w każdym układzie współrzędnych, np $(x_0,x)\mapsto G_x(x_0; x)$ , i $(y_0,y)\mapsto G_y(y_0; y)$ ; jeśli transformacja współrzędnych jest $y=f(x)$ , oba wyrażenia są powiązane przez $G_x(x_0;x) = G_y[f(x_0); f(x)]$ [2]

Od razu podkreślam, że kiedy mówimy, powiedzmy, o kwadratowej funkcji użyteczności, domyślnie wybraliśmy konkretny układ współrzędnych, zwykle naturalny dla parametru. W innym układzie współrzędnych wyrażenie funkcji użytecznej na ogół nie będzie kwadratowe, ale nadal jest tą samą funkcją użyteczną w kolektorze parametrów.

Estymator $\hat{P}$ związane z funkcją narzędzia $G$ jest punktem, który maksymalizuje oczekiwaną użyteczność, biorąc pod uwagę nasze dane $D$ . W układzie współrzędnych $x$ , jego współrzędna to

\begin{matrix} (***) & \hat{x} := \arg max_{x_{0}} \int G_{x} (x_{0}; x) p (x ∣ D) d x . \end{matrix}

$\hat{x} := \arg\max_{x_0} \int G_x(x_0; x)\, \mathrm{p}(x \mid D)\,\mathrm{d}x.\tag{***}\label{UF}$ Ta definicja jest niezależna od zmian współrzędnych: w nowych współrzędnych

y = f (x)

$y=f(x)$ współrzędną estymatora jest

\hat{y} = f (\hat{x})

$\hat{y}=f(\hat{x})$ . Wynika to z niezależności współrzędnych od

G

$G$ i całki.

Widzisz, że tego rodzaju niezmienność jest wbudowaną własnością estymatorów bayesowskich.

Teraz możemy zapytać: czy istnieje funkcja użyteczności, która prowadzi do estymatora równego największemu prawdopodobieństwu? Ponieważ estymator największego prawdopodobieństwa jest niezmienny, taka funkcja może istnieć. Z tego punktu widzenia, maksymalna-prawdopodobieństwo byłoby bezsensowne z punktu widzenia Bayesa, jakby była nie niezmienna!

Funkcja użyteczna w określonym układzie współrzędnych $x$ jest równe delcie Diraca, $G_x(x_0; x) = \delta(x_0-x)$ , wydaje się wykonywać pracę [3]. Równanie $\eqref{UF}$ daje $\hat{x} = \arg\max_{x} \mathrm{p}(x \mid D)$ , a jeśli wcześniej $\eqref{PD}$ jest jednolity we współrzędnych $x$ , uzyskujemy oszacowanie maksymalnego prawdopodobieństwa $\eqref{ML}$ . Alternatywnie możemy rozważyć sekwencję funkcji narzędziowych z coraz mniejszym wsparciem, np $G_x(x_0; x) = 1$ gdyby $\lvert x_0-x \rvert<\epsilon$ i $G_x(x_0; x) = 0$ gdzie indziej, dla $\epsilon\to 0$ [4]

Tak, tak, estymator maksymalnego prawdopodobieństwa i jego niezmienność mogą mieć sens z perspektywy Bayesa, jeśli jesteśmy matematycznie hojni i akceptujemy funkcje uogólnione. Ale samo znaczenie, rola i zastosowanie estymatora w perspektywie bayesowskiej są zupełnie inne niż w perspektywie częstokrzyskiej.

Dodam też, że w literaturze pojawiają się zastrzeżenia, czy zdefiniowana powyżej funkcja użyteczności ma sens matematyczny [5]. W każdym razie użyteczność takiej funkcji użyteczności jest raczej ograniczona: jak zauważa Jaynes [3], oznacza to, że „zależy nam tylko na tym, aby mieć dokładnie rację; a jeśli się mylimy, nie obchodzi nas to jak się mylimy ”.

Rozważmy teraz stwierdzenie „maksymalne prawdopodobieństwo jest szczególnym przypadkiem maksymalnego a posteriori z jednolitym uprzednim”. Ważne jest, aby pamiętać, co dzieje się przy ogólnej zmianie współrzędnych $y=f(x)$ :
1. powyższa funkcja narzędzia zakłada inne wyrażenie, $G_y(y_0;y) = \delta[f^{-1}(y_0)-f^{-1}(y)] \equiv \delta(y_0-y)\,\lvert f'[f^{-1}(y_0)]\rvert$ ;
2. poprzednia gęstość we współrzędnych $y$ nie jest jednolity ze względu na wyznacznik jakobowski;
3. estymator nie jest maksymalnym zagęszczeniem a posteriori w $y$ współrzędna, ponieważ delta Diraca uzyskała dodatkowy czynnik multiplikatywny;
4. estymator nadal podaje maksymalne prawdopodobieństwo w nowym, $y$ współrzędne
Zmiany te łączą się, dzięki czemu punkt estymatora jest nadal taki sam w kolektorze parametrów.

Dlatego powyższe stwierdzenie domyślnie zakłada specjalny układ współrzędnych. Wstępne, bardziej jednoznaczne stwierdzenie mogłoby wyglądać następująco: „estymator największego prawdopodobieństwa jest liczbowo równy estymatorowi Bayesa, który w pewnym układzie współrzędnych pełni funkcję użyteczności delta i jednolity przed”.

Uwagi końcowe
Powyższa dyskusja jest nieformalna, ale można ją sprecyzować za pomocą teorii miary i integracji Stieltjesa.

W literaturze bayesowskiej możemy znaleźć również bardziej nieformalne pojęcie estymatora: jest to liczba, która niejako „podsumowuje” rozkład prawdopodobieństwa, szczególnie gdy określenie jego pełnej gęstości jest niewygodne lub niemożliwe $\mathrm{p}(x \mid D)\,\mathrm{d}x$ ; patrz np. Murphy [6] lub MacKay [7]. Pojęcie to jest zwykle oderwane od teorii decyzji i dlatego może być zależne od współrzędnych lub milcząco zakłada konkretny układ współrzędnych. Ale w teoretycznej definicji estymatora decyzja, która nie jest niezmienna, nie może być estymatorem.

[1] Na przykład H. Raiffa, R. Schlaifer: Applied Statistics Decision Theory (Wiley 2000).
[2] Y. Choquet-Bruhat, C. DeWitt-Morette, M. Dillard-Bleick: Analiza, kolektory i fizyka. Część I: Podstawy (Elsevier 1996) lub jakakolwiek inna dobra książka na temat geometrii różniczkowej.
[3] ET Jaynes: Teoria prawdopodobieństwa: logika nauki (Cambridge University Press 2003), § 13.10.
[4] J.-M. Bernardo, AF Smith: Teoria bayesowska (Wiley 2000), § 5.1.1.
[5] IH Jermyn: Niezmienne bayesowskie oszacowanie na rozmaitościach https://doi.org/10.1214/009053604000001273 ; R. Bassett, J. Deride: Maksymalne estymatory a posteriori jako granica estymatorów Bayesa https://doi.org/10.1007/s10107-018-1241-0 .
[6] KP Murphy: Machine Learning: A Probabilistic Perspective (MIT Press 2012), zwłaszcza rozdz. 5.
[7] DJC MacKay: Teoria informacji, wnioskowanie i algorytmy uczenia się (Cambridge University Press 2003), http://www.inference.phy.cam.ac.uk/mackay/itila/ .

— pglpm
źródło

Istnieją sposoby definiowania niezmienników estymatorów Bayesa, w powyższym sensie, poprzez utworzenie funkcji straty funkcjonalnej, jak np. Rozbieżność Kullbacka-Leiblera między dwiema gęstościami. Te straty nazwałem stratami wewnętrznymi w artykule z 1996 roku .

— Xi'an

Z punktu widzenia nie Bayesowskiego nie ma definicji takich wielkości

p (x | θ = - \sqrt{η} \lor θ = \sqrt{η})

$p(x|\theta = -\sqrt \eta \lor \theta = \sqrt \eta)$ ponieważ

θ

$\theta$ jest wówczas parametrem stałym, a notacja warunkowa nie ma sensu. Proponowana przez ciebie alternatywa opiera się na wcześniejszej dystrybucji, a tego właśnie chce uniknąć podejście takie jak zaproponowane przez Casellę i Bergera . Możesz sprawdzić prawdopodobieństwo profilu słowa kluczowego, aby uzyskać więcej wpisów. (I nie ma znaczenia rightani wrongtam.)

— Xi'an
źródło

W jaki sposób przeczy to temu, co mówię? Chodziło mi o to, że jest to nonsensowne z perspektywy bayesowskiej . Problem, jaki mam z rozwiązaniem Caselli i Bergera, polega na tym, że w zasadzie opracowali oni zupełnie nową definicję prawdopodobieństwa ad hoc, w taki sposób, aby osiągnąć pożądany wniosek. Gdyby stworzyć spójną definicję prawdopodobieństwa, mianowicie tę, którą podałem powyżej, wniosek byłby inny. Oczywiście Casella i Berger mogą chcieć uniknąć przyłożenia priorytetów, ale jedynym sposobem na to jest zaproponowanie ad hoc zmiany definicji prawdopodobieństwa.

— user56834

Jeśli chcesz zachować perspektywę bayesowską, pytanie jest dyskusyjne, ponieważ większość wyników innych niż bayesowskie nie będzie miało sensu ani nie będzie „zgodna” z zasadami bayesowskimi.

— Xi'an