Dlaczego powinienem być Bayesianinem, gdy mój model jest zły?

68

Edycje: Dodałem prosty przykład: wnioskowanie o średniej $X_i$ . Wyjaśniłem też nieco, dlaczego wiarygodne przedziały niepasujące do przedziałów ufności są złe.

Ja, dość pobożny Bayesjan, jestem w trakcie pewnego rodzaju kryzysu wiary.

Mój problem jest następujący. Załóżmy, że chcę przeanalizować niektóre dane IID $X_i$ . Chciałbym:

najpierw zaproponuj model warunkowy:
$p (X | θ)$ $p(X|\theta)$
Następnie wybierz opcję poprzedzającą $\theta$ :
$p (θ)$ $p(\theta)$
Na koniec zastosuj regułę Bayesa, obliczyć tylną część: $p(\theta | X_1 \dots X_n )$ (lub jakieś przybliżenie, jeśli powinno być niemożliwe do obliczenia) i odpowiedz na wszystkie pytania dotyczące $\theta$

Jest to rozsądne podejście: jeśli prawdziwy model danych jest rzeczywiście „wewnątrz” mojego warunku (odpowiada pewnej wartości $X_i$ $\theta_0$ ), to mogę przywołać teorię decyzji statystycznych, aby powiedzieć, że moja metoda jest dopuszczalna (patrz Szczegóły Roberta „Wybór Bayesa”; „Wszystkie statystyki” również dają jasny opis w odpowiednim rozdziale).

Jednak, jak wszyscy wiedzą, założenie, że mój model jest poprawny, jest dość aroganckie: dlaczego natura powinna wpaść w ramkę modeli, które rozważałem? O wiele bardziej realistyczne jest założenie, że rzeczywisty model danych różni się od dla wszystkich wartości . Jest to zwykle nazywane „błędnie określonym” modelem. $p_{true}(X)$ $p(X|\theta)$ $\theta$

Mój problem polega na tym, że w tym bardziej realistycznym, źle określonym przypadku nie mam dobrych argumentów za byciem Bayesianem (tj. Obliczeniem rozkładu tylnego) w porównaniu do zwykłego obliczenia estymatora maksymalnej wiarygodności (MLE):

{\hat{θ}}_{M. L.} = \arg max_{θ} [p (X_{1} \dots X_{n} | θ)]

$\hat \theta_{ML} = \arg \max_\theta [ p(X_1 \dots X_n |\theta) ]$

Rzeczywiście, według Kleijna, vd Vaart (2012) , w źle określonym przypadku rozkład tylny:

zbiega się jako do dystrybucji dirac wyśrodkowanej w $n\rightarrow \infty$ $\hat \theta_{ML}$
nie ma prawidłowej wariancji (chyba że dwie wartości są po prostu takie same), aby zapewnić wiarygodne przedziały przedziałów ufności dla dopasowania tylnego dla . (Należy zauważyć, że chociaż przedziały ufności są oczywiście czymś, na czym Bayesianie nie przejmują się nadmiernie, jakościowo oznacza to, że rozkład tylny jest wewnętrznie niewłaściwy, ponieważ sugeruje, że jego wiarygodne przedziały nie mają właściwego zasięgu) $\theta$

W związku z tym płacimy premię obliczeniową (wnioskowanie bayesowskie jest na ogół droższe niż MLE) za brak dodatkowych właściwości

Wreszcie moje pytanie: czy są jakieś argumenty, zarówno teoretyczne, jak i empiryczne, przemawiające za wykorzystaniem wnioskowania bayesowskiego nad prostszą alternatywą MLE, gdy model jest źle określony?

(Ponieważ wiem, że moje pytania są często niejasne, daj mi znać, jeśli czegoś nie rozumiesz: spróbuję to sformułować)

Edycja: rozważmy prosty przykład: wnioskowanie o średniej podstawie modelu Gaussa (ze znaną wariancją aby jeszcze bardziej uprościć). Uważamy przeora Gaussa: oznaczamy średnią wcześniejszą, odwrotną wariancją wcześniejszego. Niech będzie empiryczną średnią . Na koniec zwróć uwagę: . $X_i$ $\sigma$ $\mu_0$ $\beta_0$ $\bar X$ $X_i$ $\mu = (\beta_0 \mu_0 + \frac{n}{\sigma^2} \bar X) / (\beta_0 + \frac{n}{\sigma^2} )$

Rozkład tylny to:

p (θ | X_{1} \dots X_{n}) \propto \exp (- (β_{0} + \frac{n}{σ^{2)}}) (θ - μ)^{2)} / 2))

$p(\theta |X_1 \dots X_n)\; \propto\; \exp\!\Big( - (\beta_0 + \frac{n}{\sigma^2} ) (\theta - \mu)^2 / 2\Big)$

W prawidłowo określonym przypadku (gdy naprawdę ma rozkład Gaussa), ten tylny ma następujące miłe właściwości $X_i$

Jeśli są generowane z modelu hierarchicznego, w którym ich wspólna średnia jest wybierana z wcześniejszego rozkładu, wtedy wiarygodne przedziały tylne mają dokładne pokrycie. Zależnie od danych, prawdopodobieństwo, że będzie w dowolnym przedziale, jest równe prawdopodobieństwu, które posterior przypisuje temu przedziałowi $X_i$ $\theta$
Nawet jeśli wcześniejsze nie jest poprawne, wiarygodne przedziały mają prawidłowe pokrycie w limicie w którym zanika wcześniejszy wpływ na tył $n\rightarrow \infty$
tylny ponadto ma dobre właściwości częstokształtne: każdy estymator bayesowski skonstruowany z tylnego jest gwarantowany jako dopuszczalny, średnia tylna jest wydajnym estymatorem (w sensie Cramera-Rao) średniej, wiarygodne przedziały są asymptotycznie przedziałami ufności.

W źle określonym przypadku większość z tych właściwości nie jest gwarantowana przez teorię. Aby naprawić pomysły, załóżmy, że prawdziwym modelem dla jest to, że są to rozkłady Studentów. Jedyną właściwością, którą możemy zagwarantować (Kleijn i in.) Jest to, że rozkład tylny koncentruje się na rzeczywistym w granicy . Ogólnie rzecz biorąc, wszystkie właściwości pokrycia zniknęłyby. Co gorsza, ogólnie możemy zagwarantować, że w tym limicie właściwości pokrycia są zasadniczo błędne: rozkład tylny przypisuje błędne prawdopodobieństwo różnym obszarom przestrzeni. $X_i$ $X_i$ $n \rightarrow \infty$

— Guillaume Dehaene
źródło

2

Cóż, podejścia Bayesa regularyzują się. Jest to coś, co pomaga w zapobieganiu nadmiernemu dopasowaniu - niezależnie od tego, czy Twój model jest źle określony. To oczywiście prowadzi do pokrewnego pytania na temat argumentów za wnioskowaniem bayesowskim przeciwko znormalizowanemu podejściu klasycznemu (lasso, regresja grzbietu, elastyczna siatka itp.).

— Stephan Kolassa

3

Być może zainteresuje Cię ta praca i jej krewni.

— Dougal,

7

Gdy twój model jest źle określony pod względem używania nieprawidłowej funkcji wiarygodności, wówczas zarówno MLE, jak i bayesowskie szacunki byłyby błędne ...

— Tim

5

@Tim: the MLE i wnioskowanie bayesowskie nie są bez znaczenia w przypadku misspecified: oboje starają się odzyskać wartość parametru

, co daje najlepszą uwzględnieniu danych w modelach warunkowych. Dokładniej,

to argmin z

gdzie KL jest dywergencją Kullbacka Leiblera. Przy łagodnych założeniach zarówno MLE, jak i wnioskowanie bayesowskie poprawnie identyfikują to

jeśli są dostarczane z wystarczającą ilością danych

{\tilde{θ}}_{0}

$\tilde \theta_0$

{\tilde{θ}}_{0}

$\tilde \theta_0$

K L [p (X), p (X | θ)]

$KL[p(X), p(X|\theta)]$

{\tilde{θ}}_{0}

$\tilde \theta_0$

— Guillaume Dehaene,

3

@amoeba Wyobrażam sobie twardy rdzeń Bayesian i zachowuję się jak

— komandor

31

Rozważam podejście bayesowskie, gdy mój zestaw danych nie jest wszystkim, co wiadomo na ten temat, i chcę w jakiś sposób włączyć tę egzogeniczną wiedzę do mojej prognozy.

Na przykład mój klient chce prognozy niespłacenia kredytu w swoim portfelu. Posiadają 100 pożyczek z kilkuletnimi kwartalnymi danymi historycznymi. Było kilka przypadków przestępczości (opóźniona płatność) i tylko kilka domyślnych. Jeśli spróbuję oszacować model przeżycia na tym zestawie danych, będzie bardzo mało danych do oszacowania i zbyt duża niepewność do prognozowania.

Z drugiej strony zarządzający portfelem to doświadczeni ludzie, niektórzy z nich mogli spędzić dekady na zarządzaniu relacjami z pożyczkobiorcami. Mają pomysły, jakie powinny być domyślne stawki. Są w stanie wymyślić rozsądne priory. Uwaga, nie prawdopodobieństwa a priori, które mają ładne własności matematycznych i wyglądają atrakcyjne intelektualnie do mnie . Porozmawiam z nimi i wydobędę ich doświadczenia i wiedzę w formie tych przeorów.

Teraz ramy bayesowskie zapewnią mi mechanikę łączenia wiedzy egzogenicznej w postaci priorów z danymi i uzyskania, moim zdaniem, a posterior, który jest lepszy zarówno od oceny jakościowej, jak i prognozy opartej na danych. To nie jest filozofia i nie jestem Bayesianinem. Po prostu używam narzędzi bayesowskich, aby konsekwentnie włączać wiedzę ekspercką do szacunków opartych na danych.

— Aksakal
źródło

3

Bardzo fajny punkt. Wnioskowanie bayesowskie oferuje ramy do precyzyjnego rozwiązania zadania takiego jak to, które przedstawiłeś. Dziękuję Ci.

— Guillaume Dehaene,

5

Jest to ogólny argument za modelowaniem bayesowskim, ale jak odnosi się do konkretnego przypadku błędnie określonego modelu? Nie widzę połączenia.

— Richard Hardy,

4

Cóż, odnosi się to do mojego pytania: nawet w źle określonym przypadku wnioskowanie bayesowskie radzi sobie lepiej (tj. W bardziej zasadniczy sposób) z informacjami jakościowymi za pomocą wcześniejszych metod niż metod MLE, które musiałyby współpracować z regularyzatorami. Jest to forma empirycznego argumentu, dlaczego wnioskowanie bayesowskie jest nieco lepsze niż MLE.

— Guillaume Dehaene

2

@Aksakal, kwestia, czy modele są źle określone, jest poza tym kwestią. Niepokoi mnie to, że nie odpowiadasz na pytanie. (Jeśli PO się nie zgadza, to myślę, że źle spisał się w formułowaniu pytania.) Ale widzę, że niedawno dokonano edycji, więc być może pytanie zostało już zmienione.

— Richard Hardy,

4

@RichardHardy, myślę, że moja odpowiedź trafia w sedno kryzysu wiary OP, który jest napędzany myślą, że jeśli twój model warunkowy zostanie źle określony, to obezwładni on przeor ze wzrostem wielkości próby, a twój tył zostanie popchnięty w kierunku niewłaściwego modelu . W takim przypadku, po co zawracać sobie głowę Bayesianem, dlaczego nie po prostu wyprostować MLE, pyta. Mój przykład jest zdecydowanie nie filozoficzny, ale praktyczny: często zajmujesz się nie tylko skończonymi, ale małymi próbkami. Tak więc twoje dane nie odciągną zbytnio tylnej części od wcześniejszej, co reprezentuje wiedzę egzogeniczną.

— Aksakal

25

Bardzo interesujące pytanie ... które może nie mieć odpowiedzi (ale to nie czyni go mniej interesującym!)

Kilka myśli (i wiele linków do moich wpisów na blogu!) O tym memie, że wszystkie modele są złe :

Chociaż hipotetyczny model jest rzeczywiście prawie niezmiennie i nieodwracalnie błędny , nadal sensowne jest działanie w sposób skuteczny lub spójny w odniesieniu do tego modelu, jeśli jest to najlepsze, co można zrobić. Wynikające z tego wnioskowanie prowadzi do oceny modelu formalnego, który jest „najbliższy” rzeczywistemu modelowi generującemu dane (jeśli taki istnieje);
Istnieją podejścia bayesowskie, które mogą obejść się bez modelu , najnowszym przykładem są artykuły Bissiri i in. (z moimi komentarzami ) oraz Watsona i Holmesa (które omówiłem z Judith Rousseau );
W podobny sposób istnieje cała gałąź statystyki bayesowskiej zajmującej się wnioskowaniem M-open ;
A jeszcze innym kierunkiem, który bardzo mi się podoba, jest podejście SafeBayesa Petera Grünwalda , który bierze pod uwagę błędną specyfikację modelu w celu zastąpienia prawdopodobieństwa obniżoną wersją wyrażoną jako moc pierwotnego prawdopodobieństwa.
Niedawny artykuł Read Gelmana i Henniga rozwiązuje ten problem, choć w sposób nieokreślony (i dodałem kilka komentarzy na moim blogu ). Zakładam, że możesz zebrać materiały do dyskusji z wpisów na twoje pytanie.
W pewnym sensie Bayesianie powinni być najmniej zaniepokojeni wśród statystyk i modelarzy tym aspektem, ponieważ model próbkowania należy przyjąć jako jedno z kilku wcześniejszych założeń, a wynik jest warunkowy lub względny w stosunku do wszystkich tych wcześniejszych założeń.

— Xi'an
źródło

2

Bardzo miło mieć twoją opinię na ten temat. Twój pierwszy punkt ma intuicyjny sens: jeśli model nie jest zbyt zły, wynik naszego wnioskowania powinien być ok. Czy jednak ktoś kiedykolwiek udowodnił taki wynik (lub zbadał to pytanie empirycznie)? Twój ostatni punkt (który mogłem źle zrozumieć) wprawia mnie w zakłopotanie: model próbkowania jest wyborem krytycznym. Fakt, że również dokonujemy wyborów, nie oznacza, że błędy w wyborze modelu próbkowania nie mogą skazić całego modelu. Dziękujemy za referencje i wspaniały blog.

— Guillaume Dehaene

W przypadku punktu 1. dlaczego nie uśrednić modelu Bayesa? Dlaczego warto korzystać z „najlepszego” modelu?

— innisfree

@innisfree: wszystko zależy od tego, co planujesz zrobić z wynikiem, nie mam religii na temat uśredniania modelu w porównaniu z najlepszym modelem.

— Xi'an

1

Wydaje się, że sugerujesz, że istnieje aspekt teoretyczny niepewności modelu uśredniania w porównaniu z wyborem tylko „najlepszego” modelu. Z pewnością zawsze korzystne jest to, że pomaga podejmować lepsze decyzje, aby spójnie uwzględniać wszystkie niepewności, w tym niepewności modelowe.

— innisfree

2

Mój główny sprzeciw wobec nieparametrycznych jest praktyczny: są one obliczeniowo droższe o kilka rzędów wielkości w porównaniu z prostszymi alternatywami. Co więcej, czy nie mamy też kłopotów z parametrami nieparametrycznymi, ponieważ prawie niemożliwe jest, aby dwie wcześniejsze dystrybucje miały wspólne wsparcie? Oznacza to, że przeor miałby duży wpływ i że statystycy bayesowscy (prawie) nie mogliby się zgodzić, gdy zaczynali od różnych przeorów.

— Guillaume Dehaene

12

Edycje: Dodano odniesienie do tego artykułu w treści, zgodnie z wnioskiem PO.

Daję odpowiedź jako naiwny empiryczny Bayesian.

Po pierwsze, rozkład tylny umożliwia wykonywanie obliczeń, których po prostu nie można wykonać za pomocą prostego MLE. Najprostszym przypadkiem jest to, że dzisiejszy późniejszy jest przeorem jutra . Wnioskowanie bayesowskie w naturalny sposób pozwala na sekwencyjne aktualizacje lub ogólnie ogólnie online lub opóźnioną kombinację wielu źródeł informacji (włączenie uprzedniej jest tylko jedną instancją podręcznika takiej kombinacji). Bayesowska teoria decyzji z funkcją nietrywialnych strat jest kolejnym przykładem. Nie wiedziałbym, co robić inaczej.

Po drugie, z tą odpowiedzią postaram się argumentować, że mantra, że kwantyfikacja niepewności jest na ogół lepsza niż brak niepewności, jest w rzeczywistości pytaniem empirycznym, ponieważ twierdzenia (jak wspomniałeś i o ile mi wiadomo) nie dają żadnych gwarancji.

Optymalizacja jako zabawkowy model badań naukowych

Domena, że czuję się w pełni oddaje złożoność problemu jest bardzo praktyczny, no-nonsense jeden, optymalizacja z czarnej skrzynki funkcja . Zakładamy, że możemy sekwencyjnie badać punkt i uzyskać możliwie hałaśliwą obserwację , z . Naszym celem jest zbliżenie się jak najbliżej $f: \mathcal{X} \subset \mathbb{R}^D \rightarrow \mathbb{R}$ $x \in \mathcal{X}$ $y = f(x) + \varepsilon$ $\varepsilon \sim \mathcal{N}(0,\sigma^2)$ z minimalną liczbą ocen funkcji. $x^* = \arg\min_x f(x)$

Szczególnie skutecznym sposobem postępowania, jak można się spodziewać, jest zbudowanie modelu predykcyjnego tego, co by się stało, jeśli zapytam o dowolny , i wykorzystam te informacje, aby zdecydować, co dalej (lokalnie lub globalnie). Zobacz Rios i Sahinidis (2013) dla przeglądu pochodnych wolne globalnych metod optymalizacji. Gdy model jest wystarczająco złożony, nazywa się to meta-modelem lub funkcją zastępczą lub podejściem powierzchniowym odpowiedzi . Zasadniczo, model może być oszacowaniem punktowym (np. Dopasowanie funkcji radialnej sieci bazowej do naszych obserwacji), lub możemy być Bayesowscy i jakoś uzyskać pełny rozkład boczny $x^\prime \in \mathcal{X}$ $f$ (np. w procesie Gaussa). $f$

Optymalizacja bayesowska wykorzystuje a posteriorę nad (w szczególności łączną warunkową średnią a wariancję w dowolnym punkcie) do kierowania poszukiwaniem (globalnego) optimum przez jakąś zasadę heurystyczną. Klasycznym wyborem jest maksymalizacja oczekiwanej poprawy w stosunku do obecnego najlepszego punktu, ale istnieją nawet bardziej wyrafinowane metody, takie jak minimalizowanie oczekiwanej entropii nad lokalizacją minimum (patrz również tutaj ). $f$

Empiryczny wynik tutaj jest taki, że dostęp do tylnej części ciała, nawet jeśli częściowo błędnie określony, generalnie daje lepsze wyniki niż inne metody. (Istnieją zastrzeżenia i sytuacje, w których optymalizacja bayesowska nie jest lepsza niż wyszukiwanie losowe, na przykład w dużych wymiarach.) W tym artykule dokonujemy oceny empirycznej nowej metody BO w porównaniu z innymi algorytmami optymalizacji, sprawdzając, czy użycie BO jest wygodne w praktyce z obiecującymi wynikami.

Ponieważ pytałeś - ma to znacznie wyższy koszt obliczeniowy niż inne metody nie bayesowskie i zastanawiałeś się, dlaczego powinniśmy być Bayesianami. Zakłada się tutaj, że koszt związany z oceną prawdziwego (np. W prawdziwym scenariuszu, złożonym eksperymencie inżynierii lub uczenia maszynowego) jest znacznie większy niż koszt obliczeniowy analizy bayesowskiej, więc bycie Bayesianem się opłaca . $f$

Czego możemy się nauczyć z tego przykładu?

Po pierwsze, dlaczego w ogóle działa optymalizacja bayesowska? Myślę, że model jest zły, ale nie taki zły, i jak zwykle zło zależy od tego, do czego służy twój model. Na przykład dokładny kształt nie ma znaczenia dla optymalizacji, ponieważ moglibyśmy optymalizować dowolną jego monotoniczną transformację. Myślę, że natura jest pełna takich niezmienności. Tak więc wyszukiwanie, które przeprowadzamy, może nie być optymalne (tzn. Wyrzucamy dobre informacje), ale nadal jest lepsze niż bez informacji o niepewności. $f$

Po drugie, w naszym przykładzie podkreślono, że użyteczność bycia bayesowskim zależy od kontekstu , np. Względnego kosztu i ilości dostępnych zasobów (obliczeniowych). (Oczywiście, jeśli jesteś zatwardziałym Bayesianinem, wierzysz, że każde obliczenie jest wnioskiem Bayesowskim na podstawie wcześniejszych i / lub przybliżonych).

Wreszcie, najważniejsze pytanie - dlaczego modele, których używamy, wcale nie są takie złe , w tym sensie, że tylne ściany są nadal użyteczne, a nie statystyczne śmieci? Jeśli weźmiemy twierdzenie o braku darmowego lunchu, najwyraźniej nie powinniśmy być w stanie powiedzieć wiele, ale na szczęście nie żyjemy w świecie całkowicie losowych (lub przeciwnie wybranych ) funkcji.

Mówiąc bardziej ogólnie, skoro umieściłeś znacznik „filozoficzny” ... Chyba wkraczamy w sferę problemu indukcji lub nieuzasadnionej skuteczności matematyki w naukach statystycznych (w szczególności naszej intuicji matematycznej i umiejętności określania modeli które działają w praktyce) - w tym sensie, że z czysto apriorycznego punktu widzenia nie ma powodu, dla którego nasze domysły powinny być dobre lub mieć jakąkolwiek gwarancję (i na pewno można zbudować matematyczne kontrprzykłady, w których wszystko idzie nie tak), ale odwracają się pracować dobrze w praktyce.

— Lacerbi
źródło

2

Świetna odpowiedź. Dziękuję bardzo za Twój wkład. Czy jest jakaś opinia / rzetelne porównanie optymalizacji bayesowskiej w porównaniu do normalnych technik optymalizacji, która podkreśla, że wersja bayesowska jest empirycznie lepsza, jak twierdzisz? (Nie mam nic przeciwko temu, żeby zabrać cię za słowo, ale przydatne byłoby odniesienie)

— Guillaume Dehaene

1

Dzięki! Myślę, że probabilistyczna numeryczna wezwania do broni zawiera kilka argumentów teoretycznych i empirycznych. Nie znam wzorca porównawczego, który naprawdę porównuje metody BO ze standardowymi metodami, ale [ wyzwalaj ostrzeżenie: bezwstydna wtyczka ] Obecnie pracuję nad czymś podobnym w dziedzinie neuronologii obliczeniowej; Mam nadzieję, że opublikuję niektóre wyniki na arXiv, mam nadzieję, że w ciągu najbliższych kilku tygodni.

— lacerbi

Rzeczywiście, przynajmniej ich rysunek 2 ma wyraźne porównanie. Czy możesz dodać swoją pracę do swojego głównego pytania, gdy się pojawi? Myślę, że byłby to cenny dodatek.

— Guillaume Dehaene

Tak - to jest ich metoda adaptacyjnej kwadratury bayesowskiej, co jest całkiem fajnym pomysłem (w praktyce jej skuteczność zależy od tego, czy przybliżenie GP działa; co często jest prawie równoważne z twierdzeniem, że masz rozsądną parametryzację swojego problemu). Dodam link do odpowiedzi, kiedy moja praca będzie dostępna, dzięki.

— lacerbi 24.04.17

1

@IMA: Niestety, nie sądzę, że w 100% rozumiem twój punkt widzenia. Wziąłem optymalizację czarnej skrzynki jako zabawkowy model przedsięwzięcia naukowego. Wierzę, że możesz zmapować wiele kroków i problemów związanych z „nauką” do tej prostszej (ale wciąż niezwykle złożonej) dziedziny. W mojej argumentacji nie ma potrzeby założenia „szumu gaussowskiego”, chodziło tylko o prostotę. Problemy optymalizacji w świecie rzeczywistym (np. W inżynierii) mogą być uszkodzone przez szum niegaussowski i to jest coś, z czym trzeba sobie poradzić. Procesy gaussowskie nie potrzebują gaussowskiego szumu obserwacyjnego (chociaż ułatwia to wnioskowanie).

— Lacerbi

10

Widzę to tylko dzisiaj, ale myślę, że powinienem się pochylić, biorąc pod uwagę, że jestem rodzajem eksperta i że co najmniej dwie odpowiedzi (nr 3 i 20 (dzięki za odniesienie do mojej pracy Xi'an!)) Wspominają o mojej pracy nad SafeBayes - w szczególności G. i van Ommen, „Niespójność wnioskowania bayesowskiego dla źle określonych modeli liniowych oraz propozycja naprawy” (2014). Chciałbym również dodać coś do komentarza 2:

2 mówi: (zaletą Bayesa przy błędnym określeniu jest ...) „Cóż, Bayesian podchodzi do regularyzacji. Jest to coś, co pomaga w zapobieganiu nadmiernemu dopasowaniu - niezależnie od tego, czy Twój model jest źle określony. Oczywiście, to tylko prowadzi do powiązanego pytania o argumenty za wnioskowaniem bayesowskim przeciwko znormalizowanym metodom klasycznym (lasso itp.) ”

To prawda, ale należy dodać, że podejścia bayesowskie mogą nie być wystarczająco regularyzowane jeśli model jest zły. To jest główny punkt pracy z Van Ommenem - widzimy tam, że standardowe Bayesa dość okropnie pasują w pewnym kontekście regresji z niewłaściwymi, ale bardzo przydatnymi modelami. Nie tak zły jak MLE, ale wciąż o wiele za dużo, aby był użyteczny. W teoretycznym uczeniu maszynowym (częstym i teorii gier) jest cały szereg prac, w których wykorzystują metody podobne do Bayesa, ale o znacznie mniejszym „współczynniku uczenia się” - co czyni wcześniejsze i dane mniej ważnymi, a tym samym bardziej reguluje. Metody te zostały zaprojektowane tak, aby działały dobrze w najgorszych przypadkach (błędne sprecyzowanie, a nawet gorzej, dane kontradyktoryjne) - podejście SafeBayes ma za zadanie „nauczyć się optymalnej szybkości uczenia się” na podstawie samych danych - i tej optymalnej częstotliwości uczenia się, tj. Optymalnej ilości regularyzacji,

W związku z tym istnieje twierdzenie ludowe (wspomniane przez kilka powyżej), że Bayes będzie miał skupić się na rozkładzie najbliższym rozbieżności KL w „prawdzie”. Ale dotyczy to tylko bardzo rygorystycznych warunków - DUŻO bardziej rygorystycznych niż warunki potrzebne do zbieżności w ściśle określonym przypadku. Jeśli masz do czynienia ze standardowymi małymi wymiarowymi modelami parametrycznymi, a dane są wyświetlane zgodnie z pewnym rozkładem (nie w modelu), wtedy tylny rzeczywiście skoncentruje się wokół punktu w modelu, który jest najbliższy prawdy w rozbieżności KL. Teraz, jeśli masz do czynienia z dużymi modelami nieparametrycznymi, a model jest poprawny, wtedy (zasadniczo) twój tył będzie nadal koncentrować się wokół prawdziwego rozkładu przy wystarczającej ilości danych, tak długo, jak twój poprzednik umieszcza wystarczającą masę w małych kulkach KL wokół prawdziwego rozkładu. To jestsłaby warunek wymagany do zbieżności w przypadku nieparametrycznym, jeśli model jest poprawny.

Ale jeśli twój model jest nieparametryczny, ale niepoprawny, wtedy tylny może po prostu nie koncentrować się wokół najbliższego punktu KL, nawet jeśli twój poprzedni umieszcza tam masę w pobliżu 1 (!) - twój tylny może pozostać zagubiony na zawsze, koncentrując się na zawsze różnych rozkładach w miarę upływu czasu, ale nigdy nie w pobliżu najlepszego. W moich pracach mam kilka przykładów tego, co się dzieje. Dokumenty, które wykazują zbieżność przy błędnym określeniu (np. Kleijn i van der Vaart), wymagają wielu dodatkowych warunków, np. Model musi być wypukły lub wcześniejsze muszą spełniać pewne (skomplikowane) właściwości. To właśnie rozumiem przez „surowe” warunki.

W praktyce często mamy do czynienia z parametrycznymi, ale bardzo wysokowymiarowymi modelami (pomyślmy o regresji bayesowskiej itp.). Wtedy, jeśli model jest zły, ostatecznie twój tylny skoncentruje się na najlepszym rozkładzie KL w modelu, ale nadal utrzymuje się mini-wersja niesparametrycznej niespójności: może zajść rzędy wielkości więcej danych, zanim nastąpi konwergencja - znowu, mój artykuł z Van Ommen podaje przykłady.

Podejście SafeBayes modyfikuje standardowe pola w sposób gwarantujący zbieżność w modelach nieparametrycznych w (zasadniczo) takich samych warunkach jak w ściśle określonym przypadku, tj. Wystarczająca masa przednia w pobliżu rozkładu optymalnego KL w modelu (G. i Mehta, 2014 ).

Następnie pojawia się pytanie, czy Bayes ma nawet uzasadnienie z powodu błędnej specyfikacji. IMHO (i jak wspomniano również kilka osób powyżej), standardowe uzasadnienia Bayesa (dopuszczalność, Savage, De Finetti, Cox itp.) Nie obowiązują tutaj (ponieważ jeśli zdasz sobie sprawę, że twój model jest źle określony, twoje prawdopodobieństwa nie odzwierciedlają twoich prawdziwych przekonań !). JEDNAK wiele metod Bayesa można również interpretować jako metody „minimalnej długości opisu (MDL)” - MDL jest metodą teoretyczną, która utożsamia „uczenie się z danych” z „próbą jak największej kompresji danych”. Ta interpretacja kompresji danych (niektórych) metod bayesowskich pozostaje ważna przy błędnym określeniu. Więc jest jeszcze trochęinterpretacja leżąca u podstaw błędnej specyfikacji - niemniej jednak istnieją problemy, jak pokazują moje prace z vanem Ommenem (oraz problem z przedziałem ufności / wiarygodnym zestawem wspomniany w oryginalnym poście).

A potem ostatnia uwaga na temat oryginalnego postu: wspominasz o „dopuszczalności” uzasadnienia Bayesa (wracając do pełnej klasy Walda z lat 40. / 50.). To, czy jest to naprawdę uzasadnienie Bayesa, zależy w dużej mierze od precyzyjnej definicji „wnioskowania bayesowskiego” (która różni się od badacza do badacza ...). Powodem jest to, że te wyniki dopuszczalności dopuszczają możliwość zastosowania uprzedniego, który zależy od aspektów problemu, takich jak wielkość próby i interesująca funkcja utraty itp. Większość „prawdziwych” Bayesianów nie chciałaby zmienić swojego wcześniejszego, gdyby ilość dane muszą przetwarzać zmiany lub jeśli funkcja utraty interesu zostanie nagle zmieniona. Na przykład przy ściśle wypukłych funkcjach utraty, estymatory minimax są również dopuszczalne - choć zwykle nie są uważane za bayesowskie! Powodem jest to, że dla każdej ustalonej wielkości próbki są one równoważne Bayesowi z określonym uprzednim, ale wcześniejszy jest inny dla każdej wielkości próbki.

Mam nadzieję, że to się przyda!

— Peter Grünwald
źródło

2

Witamy w CrossValidated i dziękuję za odpowiedź na to pytanie. Drobna uwaga - nie możesz polegać na sortowaniu odpowiedzi w takiej samej kolejności, w jakiej je widzisz; różne osoby mogą sortować w różnych porządkach (istnieje możliwość wyboru różnych kryteriów sortowania u góry odpowiedzi na najwyższą pozycję), a dwa z tych kryteriów zmieniają się w czasie. To znaczy, jeśli określisz ich jako „nr 3 i 20”, ludzie nie będą wiedzieć, które odpowiedzi masz na myśli. [Mogę również znaleźć tylko dziesięć odpowiedzi.]

— Glen_b

1

Dziękuję za wspaniałą odpowiedź, Peter. Jestem zdezorientowany co do twojego komentarza, że wnioskowanie bayesowskie w źle sprecyzowanym przypadku wymaga bardzo silnych założeń. Do jakich założeń wyraźnie nawiązujesz? Czy mówisz o stanie, w którym tylny musi zbiegać się do rozkładu diraca przy najlepszej wartości parametru? czy mówisz o bardziej technicznych warunkach prawdopodobieństwa, które zapewniają asymptotyczną normalność?

— Guillaume Dehaene

Ok, dzięki Glen B (moderator) - odtąd będę o tym pamiętać.

— Peter Grünwald

Guillaume - aktualizuję powyższe, aby uwzględnić Twój komentarz

— Peter Grünwald

7

Istnieje zwykle kompromis wariancji odchylenia. Wnioskowanie bayesowskie przy założeniu przypadku M-zamkniętego [1,2] ma mniejszą wariancję [3], ale w przypadku błędnej specyfikacji modelu tendencyjność rośnie szybciej [4]. Możliwe jest również wnioskowanie bayesowskie, zakładając przypadek M-otwarty [1,2], który ma większą wariancję [3], ale w przypadku błędnej specyfikacji modelu odchylenie jest mniejsze [4]. Dyskusje na temat kompromisu wariancji uprzedzeń między Bayesowskimi M-zamkniętymi i M-otwartymi przypadkami pojawiają się również w niektórych odnośnikach zawartych w odnośnikach poniżej, ale wyraźnie potrzeba więcej.

[1] Bernardo i Smith (1994). Teoria bayesowska. John Wiley \ & Sons.

[2] Vehtari i Ojanen (2012). Przegląd bayesowskich metod predykcyjnych do oceny, wyboru i porównania modeli. Ankiety statystyczne, 6: 142-228. http://dx.doi.org/10.1214/12-SS102

[3] Juho Piironen i Aki Vehtari (2017). Porównanie bayesowskich metod predykcyjnych do wyboru modelu. Statystyka i informatyka, 27 (3): 711–735. http://dx.doi.org/10.1007/s11222-016-9649-y .

[4] Yao, Vehtari, Simpson i Andrew Gelman (2017). Używanie stosu do średnich rozkładów predykcyjnych bayesowskich. prefiks arXiv arXiv: 1704.02030 arxiv.org/abs/1704.02030

— Aki Vehtari
źródło

7

Oto kilka innych sposobów uzasadnienia wnioskowania bayesowskiego w błędnie określonych modelach.

Możesz skonstruować przedział ufności dla średniej tylnej, używając formuły kanapkowej (w taki sam sposób, jak zrobiłbyś z MLE). Tak więc, mimo że wiarygodne zestawy nie mają zasięgu, nadal możesz tworzyć prawidłowe przedziały ufności w estymatorach punktów, jeśli to Cię interesuje.
Możesz przeskalować rozkład tylny, aby upewnić się, że wiarygodne zestawy mają zasięg, co jest podejściem przyjętym w:

Müller, Ulrich K. „Ryzyko wnioskowania bayesowskiego w błędnie określonych modelach i macierzy kowariancji kanapkowej”. Econometrica 81.5 (2013): 1805–1849.

$p(\theta)$ $\ell_n(\theta)$ $-\int \ell_n(\theta) d\nu(\theta) + \int \log\!\Big(\frac{\nu(\theta)}{p(\theta)}\Big)d\nu(\theta)$ $\nu(\theta)$

— Pierrot
źródło

Dziękuję za artykuł Mullera: Myślę, że odpowiada on na wiele pytań, które mam.

— Guillaume Dehaene

6

$p_{true}(X)$ $p(X|\theta)$ $\theta$

$\phi$ $\phi_0$ $\phi_0$ $\int p(X|\theta,\phi=\phi_0) \mathrm{d}\theta =0$ $p(\phi=\phi_0)\propto 1$ $p(\phi\neq\phi_0)=0$ $p(\theta|X,\phi=\phi_0)=0$

$A, \neg A \vdash \emptyset$ $p(\theta|X,\phi=\phi_0)=0$

$p(B|E)$ $E= (E_1,E_2,\dots,E_n)$ $E$ , program komputerowy ulegnie awarii. Odkryliśmy to „empirycznie” i po zastanowieniu zdaliśmy sobie sprawę, że nie jest to powód do konsternacji, ale cenne narzędzie diagnostyczne, które ostrzega nas przed nieprzewidzianymi szczególnymi przypadkami, w których nasze sformułowanie problemu może się załamać.

Innymi słowy, jeśli twoje sformułowanie problemu jest niedokładne - jeśli twój model jest nieprawidłowy, statystyki bayesowskie mogą pomóc ci dowiedzieć się, że tak jest i pomóc w znalezieniu tego, który aspekt modelu jest źródłem problemu.

W praktyce może nie być całkiem jasne, jaka wiedza jest istotna i czy należy ją uwzględnić w derywatyzacji. Różne techniki sprawdzania modelu (rozdziały 6 i 7 w Gelman i in., 2013, zapewniają przegląd) są następnie wykorzystywane do znalezienia i zidentyfikowania niedokładnego sformułowania problemu.

Gelman, A., Carlin, JB, Stern, HS, Dunson, DB, Vehtari, A., i Rubin, DB (2013). Analiza danych bayesowskich, wydanie trzecie. Chapman & Hall / CRC.

Jaynes, ET (2003). Teoria prawdopodobieństwa: logika nauki. Prasa uniwersytecka z Cambridge.

— matus
źródło

1

X_{i}

$X_i$

X_{i}

$X_i$

1

@GuillaumeDehaene Twoje pytanie dotyczyło tego, czy istnieją argumenty przemawiające za użyciem Bayesa, gdy model jest nieokreślony. Najwyraźniej model katastroficznie błędnie określony jest błędnie określony. Ponadto nie możesz wiedzieć, czy twój model jest katastroficznie nieokreślony, czy tylko błędnie określony. W rzeczywistości Bayes może ci to dokładnie powiedzieć, co czyni go użytecznym, a moja odpowiedź to wskazała.

— matus

1 - α

$1-\alpha$

\int p (X, θ | ϕ = ϕ_{0}) d θ = k

$\int p(X,\theta|\phi=\phi_0) \mathrm{d}\theta =k$

k

$k$

p (X | ϕ = ϕ_{0})

$p(X|\phi=\phi_0)$

θ = θ_{0}

$\theta=\theta_0$

p (θ = θ_{0} | ϕ = ϕ_{0}) = 0

$p(\theta=\theta_0|\phi=\phi_0)=0$

p (X, θ = θ_{k} | ϕ = ϕ_{0}) > 0

$p(X,\theta=\theta_k|\phi=\phi_0)>0$

5

MLE jest nadal estymatorem parametru w określonym modelu i zakłada się, że jest poprawny. Współczynniki regresji w częstym OLS można oszacować za pomocą MLE, a wszystkie właściwości, które chcesz do niego przypisać (obiektywne, konkretna wariancja asymptotyczna) nadal zakładają, że twój bardzo specyficzny model liniowy jest poprawny.

Idę o krok dalej i mówię, że za każdym razem, gdy chcesz przypisać estymatorowi znaczenie i właściwości, musisz założyć model. Nawet jeśli weźmiesz prosty przykładowy środek, zakładasz, że dane są wymienne i często IID.

Teraz estymatory bayesowskie mają wiele pożądanych właściwości, których MLE może nie mieć. Na przykład częściowe łączenie, regularyzacja i interpretowalność tylnej części ciała, co czyni ją pożądaną w wielu sytuacjach.

— TrynnaDoStat
źródło

Nie musisz zakładać IID, aby nadać sens. Wystarczy założyć wymienność (ale tak, to wciąż założenie ...)

— kjetil b halvorsen

@kjetil b halvorsen Dziękuję, edytowałem dla jasności.

— TrynnaDoStat

4

Polecam filozofię Gelmana i Shaliziego oraz praktykę statystyki bayesowskiej . Mają spójne, szczegółowe i praktyczne odpowiedzi na te pytania.

Uważamy, że większość otrzymanego poglądu na wniosek Bayesa jest błędna. Metody bayesowskie nie są bardziej indukcyjne niż jakikolwiek inny sposób wnioskowania statystycznego. Analiza danych bayesowskich jest znacznie lepiej rozumiana z hipotetyczno-dedukcyjnej perspektywy . W najlepszej praktyce bayesowskiej ukryta jest postawa, która ma wiele wspólnego z błędnym podejściem statystycznym Mayo (1996), pomimo jego częstej orientacji. Istotnie, kluczowe części analizy danych bayesowskich, takie jak sprawdzanie modelu, można rozumieć jako „sondy błędów” w sensie Mayo.

Kontynuujemy kombinację badania konkretnych przypadków analizy danych bayesowskich w empirycznych badaniach nauk społecznych oraz wyników teoretycznych dotyczących spójności i zbieżności aktualizacji bayesowskich. Analiza danych społeczno-naukowych jest szczególnie istotna dla naszych celów, ponieważ istnieje ogólna zgoda, że w tej dziedzinie wszystkie stosowane modele są błędne - nie tylko falsyfikowalne, ale w rzeczywistości fałszywe. Mając wystarczającą ilość danych - i często tylko dość umiarkowaną ilość - każdy analityk może odrzucić każdy obecnie używany model z dowolnym pożądanym poziomem zaufania . Dopasowywanie modeli jest jednak cenną czynnością, a wręcz sednem analizy danych. Aby zrozumieć, dlaczego tak się dzieje, musimy zbadać, w jaki sposób modele są budowane, montowane, używane i sprawdzane, a także wpływ błędnej specyfikacji na modele.

...

Naszym zdaniem sprawozdanie z ostatniego akapitu [standardowego poglądu Bayesa] jest całkowicie błędne. Proces analizy danych - bayesowski lub inny - nie kończy się na obliczeniu oszacowań parametrów lub rozkładów bocznych. Można raczej sprawdzić model, porównując implikacje dopasowanego modelu z dowodami empirycznymi. Zadaje się pytania takie jak to, czy symulacje z dopasowanego modelu przypominają oryginalne dane, czy dopasowany model jest zgodny z innymi danymi nieużywanymi w dopasowaniu modelu oraz czy zmienne, które według modelu są szumem („warunki błędów”) w wyświetlać łatwo wykrywalne wzorce. Rozbieżności między modelem a danymi można wykorzystać, aby dowiedzieć się, w jaki sposób model jest nieodpowiedni do danych celów naukowych, a tym samym zmotywować rozszerzenia i zmiany w modelu (sekcja 4.).

— Alex Coventry
źródło

2

$x$ $d$ $m$

p (x | re, m),

$p (x|d, m),$

m

$m$

x

$x$

p (x | re) = \sum_{m} p (x | re, m) p (m | re)

$p (x|d) = \sum_m p (x|d, m) p(m|d)$

$x$ $m$ $x$ $m$

— innisfree
źródło

3

Uśrednianie modelu nie może nas ocalić: nadal nierozsądnie jest zakładać, że prawdziwy model w jakiś sposób mieści się w zakresie naszego większego modelu. Porównując modele, możemy ustalić, który z kilku modeli najlepiej opisuje dane, ale zwraca tylko zły model, który jest mniej zły niż inne modele.

— Guillaume Dehaene

Może to pomóc w wyciągnięciu wniosków / oszacowań dotyczących nieznanej wielkości, które spójnie uwzględniają niepewność modelu. Nie może jednak wymyślić dla ciebie nowych hipotez. Gdyby istniała machina statystyczna, która wymyśliła modele w świetle danych, np. Nauka byłaby znacznie łatwiejsza.

— innisfree

1

Jak zdefiniujesz, co to jest „źle określony” model? Czy to oznacza, że model ...

robi „złe” prognozy?
$p_{T}(x)$
brakuje parametru?
prowadzi do „złych” wniosków?

Jeśli pomyślisz o tym, w jaki sposób dany model może być źle określony, będziesz zasadniczo wyciągał informacje o tym, jak stworzyć lepszy model. Dodaj te dodatkowe informacje do swojego modelu!

Jeśli pomyślisz o tym, czym jest „model” w ramach bayesowskich, zawsze możesz stworzyć model, którego nie da się źle określić. Jednym ze sposobów jest dodanie większej liczby parametrów do bieżącego modelu. Dodając więcej parametrów, uczynisz swój model bardziej elastycznym i elastycznym. Metody uczenia maszynowego w pełni wykorzystują ten pomysł. To leży u podstaw takich rzeczy, jak „sieci przyrodnicze” i „drzewa regresji”. Musisz jednak pomyśleć o priors (podobnie jak regularyzacja dla ML).

model 1: x_{ja} = θ + σ {mi}_{ja}

$\text {model 1: }x_i =\theta + \sigma e_i$

e_{i} \sim N (0, 1)

$e_i \sim N (0,1)$

model 2: x_{ja} = θ + σ \frac{{mi}_{ja}}{w_{ja}}

$\text {model 2: }x_i =\theta + \sigma \frac{e_i}{w_i}$

e_{i} \sim N (0, 1)

$e_i \sim N (0,1)$

θ

$\theta$

$w_i\sim N (0,1)$

— prawdopodobieństwo prawdopodobieństwa
źródło

x

$x$

f (x)

$f(x)$