Jak wybrać wcześniej w estymacji parametrów bayesowskich

Znam 3 metody szacowania parametrów, ML, MAP i podejście Bayesa. A jeśli chodzi o MAP i podejście Bayesa, musimy wybrać priory dla parametrów, prawda?

Powiedzmy, że mam ten model , w którym są parametrami, aby dokonać oszacowania za pomocą MAP lub Bayesa, przeczytałem w książce, że lepiej wybrać koniugat przed , które jest łącznym prawdopodobieństwem , prawda? $p(x|\alpha,\beta)$ $\alpha,\beta$ $p(\alpha,\beta)$ $\alpha,\beta$

Mam 2 pytania:

Czy mamy inne możliwości wyboru poprzedniej niż ta sprzężona?
Czy możemy wybrać priorytety dla odpowiednio i takie jak i , inne niż połączyć je razem? $\alpha$ $\beta$ $p(\alpha)$ $p(\beta)$

bayesian estimation prior

— awokado
źródło

W zależności od oprogramowania, którego użyjesz, priory z pewnością nie muszą być sprzężone z funkcją prawdopodobieństwa ... przede wszystkim powinieneś upewnić się, że twoi priory reprezentują twoje wcześniejsze przekonania na temat rozkładu parametrów

— Patrick Coulombe

Więc mógłbym wybrać odpowiednio parametry dla parametrów, prawda? Właściwie, tylko spróbuj zrozumieć baysian regresji liniowej, bez specjalnego oprogramowania rozważyć

— awokado

Sprawdź wcześniejsze wywołanie , np. Tutaj

— Scortchi - Przywróć Monikę

Odpowiedzi:

Jak stwierdzono w komentarzu, wcześniejsza dystrybucja reprezentuje wcześniejsze przekonania na temat dystrybucji parametrów.

Gdy faktycznie dostępne są wcześniejsze przekonania, możesz:

konwertuj je w kategoriach momentów (np. średnia i wariancja), aby dopasować wspólny rozkład do tych momentów (np. Gaussa, jeśli parametr leży w linii rzeczywistej, Gamma, jeśli leży w ). $R^+$
wykorzystaj swoje intuicyjne zrozumienie tych przekonań, aby zaproponować daną wcześniejszą dystrybucję i sprawdź, czy to naprawdę pasuje do twojego celu i czy nie jest wrażliwe na arbitralne wybory (przeprowadzanie analizy solidności lub wrażliwości)

Jeśli nie są dostępne żadne wyraźne wcześniejsze przekonania, możesz:

wyprowadzić (lub po prostu użyć, jeśli jest już dostępny, świetnym zasobem jest http://www.stats.org.uk/priors/noninformative/YangBerger1998.pdf ) Jeffreys (np. mundur dla parametru lokalizacji) lub wcześniejsza referencja (szczególnie w przypadek parametrów wielowymiarowych).
$g$

$p(a,b)$ $p(a) \cdot p(b)$

zadbaj o to, aby twój tylny był całkowalny prawie wszędzie (lub właściwy), co zawsze jest prawdą, jeśli użyjesz wstępnego całkowania (zobacz Czy bayesowski tylny musi być prawidłowy rozkład? aby uzyskać więcej informacji),
ogranicz wsparcie swojego przeora tylko wtedy, gdy masz dużą pewność co do granic wsparcia (więc unikaj tego).
i wreszcie, ale przede wszystkim, upewnij się (przez większość czasu eksperymentalnie), że wcześniejszy wybór oznacza to, co chcesz wyrazić. Moim zdaniem to zadanie jest czasem bardziej krytyczne. Nigdy nie zapominaj, że kiedy wnioskowanie z góry nie znaczy samo z siebie nic, musisz wziąć pod uwagę sytuację z tyłu (która jest kombinacją wcześniejszego i prawdopodobieństwa).

— peuhp
źródło

Dziękuję bardzo, czy mógłbyś polecić mi kilka poradników na temat tego, jak wyciągać wnioski bayesowskie?

— awokado

@loganecolss Nie ma za co, kilka miesięcy temu byłem trochę zagubiony, a ten post jest po prostu podsumowaniem mojej samokształcenia i cieszę się, że może pomóc komuś innemu. Jeśli chodzi o twoje pytanie, co rozumiesz przez „tego rodzaju wnioskowanie bayesowskie”?

— peuhp

Zajmuję się także uczeniem maszynowym, znałem ML, ale to bayesowskie podejście do szacowania parametrów jest dla mnie nowe, mam nadzieję, że możesz pokazać mi trochę materiału do nauki szacowania i wnioskowania bayesowskiego ;-)

— awokado

@loganecolss, To jest dobre podsumowanie MLE, MAP i wnioskowania bayesowskiego. Link ten daje dobre podsumowanie tego, jak włączyć wnioskowanie Bayesa przed rozkładem dwumianowym.

— Zhubarb,

Mniejsza opracowanie: a przed właściwą oznacza się spójnego zestawu poglądów na temat parametrów. Nie muszą to być twoje przekonania. Rzeczywiście, modele są często bardziej przekonujące, gdy należą do innych.

— conjugateprior

Istnieje również empiryczny Bayes. Chodzi o to, aby dostroić dane przed:

{max}_{p (z)} \int p (re | z) p (z) re z

$\text{max}_{p(z)} \int p(\mathcal{D}|z)p(z) dz$

Choć na początku może się to wydawać niezręczne, istnieją tak naprawdę relacje do minimalnej długości opisu. Jest to również typowy sposób szacowania parametrów jądra procesów Gaussa.

— bayerj
źródło

Aby bezpośrednio odpowiedzieć na dwa powyższe pytania:

Masz inne możliwości wyboru innych niż sprzężone priory. Problem polega na tym, że jeśli wybierzesz nie-sprzężone priory, nie możesz dokonać dokładnego wnioskowania bayesowskiego (krótko mówiąc, nie możesz wyprowadzić bliższej postaci tylnej). Zamiast tego musisz dokonać przybliżonego wnioskowania lub zastosować metody próbkowania, takie jak próbkowanie Gibbsa, próbkowanie odrzucenia, MCMC itp., Aby wyprowadzić cię z tyłu. Problem z metodami próbkowania polega na tym, że intuicyjnie przypomina to rysowanie słonia w ciemności poprzez powtarzalne dotykanie go - możesz być stronniczy i niekompletny. Powodem, dla którego ludzie wybierają opcję wcześniejszą niż koniugat, jest to, że z pewnym prawdopodobieństwem opcja wcześniejszej koniugatu jest dość ograniczona lub, powiedzmy, większość nie jest sprzężona.
Tak, zdecydowanie możesz. Jeśli α i β są niezależne, co jest warunkiem idealistycznym, można uzyskać ich łączny rozkład na podstawie p (α) p (β). Jeśli nie są one niezależne, konieczne może być ustalenie prawdopodobieństwa warunkowego i wykonanie całki w celu uzyskania rozkładu połączeń.

— talentcat
źródło