Czy to prawda, że Bayesianie nie potrzebują zestawów testowych?

Niedawno obejrzałem tę rozmowę Erica J. Ma i sprawdziłem jego wpis na blogu , w którym cytuje Radforda Neala, że modele bayesowskie nie pasują (ale mogą się przewyższać ), a podczas ich używania nie potrzebujemy zestawów testowych do ich weryfikacji (dla wydaje mi się, że cytaty mówią raczej o użyciu zestawu walidacyjnego do dostosowania parametrów). Szczerze mówiąc, te argumenty mnie nie przekonują, a ja nie mam dostępu do książki, więc czy mógłbyś podać bardziej szczegółowy i rygorystyczny argument za, czy przeciw takiemu stwierdzeniu?

Nawiasem mówiąc, tymczasem Eric Ma wskazał mi tę dyskusję na ten sam temat.

— Tim
źródło

Jedna główna dziura w tym sporze w odniesieniu do tej rozmowy: Jeśli robisz MCMC, jeśli nie w pełni eksplorujesz tylnej części ciała, twoje wnioskowanie jest całkowicie nieważne. Jeśli wnioskujesz o Bayesian Neural Network, prawie na pewno nie zbadałeś bardzo dużych części tylnej za pomocą MCMC. Dlatego lepiej podziel swoje dane, aby dokładnie sprawdzić swoje wnioski!

— Cliff AB

jedną rzeczą do rozważenia jest to, co oceniamy lub weryfikujemy? być może nie wykorzystujemy wszystkich posiadanych informacji (z góry lub z prawdopodobieństwa). sprawdzenie dopasowania modelu może pomóc w udzieleniu odpowiedzi na to pytanie.

— Prawdopodobieństwo

Jeśli użyjemy „jedynego prawdziwego modelu” i „prawdziwych priorytetów” odzwierciedlających niektóre odpowiednio uchwycone wcześniejsze informacje, to o ile wiem, Bayesian naprawdę nie ma problemu nadmiernego dopasowania, a ten rozkład predykcyjny z tyłu przy bardzo małej ilości danych będzie odpowiednio niepewny . Jeśli jednak użyjemy jakiegoś pragmatycznie wybranego modelu (tj. Zdecydowaliśmy, że np. Współczynnik ryzyka jest stały w czasie i model wykładniczy jest odpowiedni lub np. Że pewna zmienna towarzysząca nie występuje w modelu = punkt przed współczynnikiem zero) z pewnymi domyślnie nieinformacyjne lub regulujące priory, to tak naprawdę nie wiemy, czy to nadal obowiązuje. W takim przypadku wybór (hiper-) priorów ma pewną arbitralność, która może, ale nie musi, skutkować dobrymi prognozami na podstawie próby.

Dlatego bardzo rozsądne jest zadanie pytania, czy wybór hiperparametrów (= parametry hiperpriorów) w połączeniu z wybranym prawdopodobieństwem będzie działał dobrze. W rzeczywistości możesz łatwo zdecydować, że dobrym pomysłem jest dostrojenie hiperparametrów, aby uzyskać pożądaną wydajność prognozowania. Z tej perspektywy zestaw walidacyjny (lub walidacja krzyżowa) dostrajania hiperparametrów i zestaw testowy do potwierdzania wydajności ma sens.

Myślę, że jest to ściśle związane z szeregiem dyskusji Andrew Gelmana na jego blogu (patrz np. Wpis na blogu 1 , wpis na blogu 2 , wpis na blogu 3 w LOO for Stan i dyskusje na temat kontroli predykcyjnych w późniejszym okresie), gdzie omawia on swoje obawy wokół (w pewnym sensie poprawne) twierdzi, że Bayesian nie powinien sprawdzać, czy jego model ma sens i czy dotyczy praktycznej oceny modelu Bayesian.

Oczywiście bardzo często jesteśmy najbardziej zainteresowani wykorzystaniem metod bayesowskich w ustawieniach, w których niewiele jest wcześniejszych informacji i chcemy użyć nieco pouczających priorytetów. W tym momencie może być nieco trudniej mieć wystarczającą ilość danych, aby uzyskać dostęp do dowolnego miejsca z weryfikacją i oceną zestawu testowego.

— Björn
źródło

Odpowiedziałem więc na pytanie dotyczące nadmiernego dopasowania, o którym wspomniałeś, obejrzałem wideo i przeczytałem post na blogu. Radford Neal nie twierdzi, że modele bayesowskie nie pasują do siebie. Pamiętajmy, że nadmierne dopasowanie to zjawisko, w którym szum jest traktowany jako sygnał i uwięziony w oszacowaniu parametru. To nie jest jedyne źródło błędu wyboru modelu. Dyskusja Neala jest jednak szersza, ponieważ odważa się na pomysł małej liczebności próby, którą podjął w dyskusji na temat nadmiernego dopasowania.

Pozwól mi częściowo zrewidować mój poprzedni post, że modele Bayesa mogą pasować do wszystkich modeli Bayesa, ale robię to w sposób, który poprawia przewidywanie. Ponownie, powrót do definicji mylenia sygnału z szumem, niepewność w metodach bayesowskich, rozkład a posteriori, jest kwantyfikacją tej niepewności co do tego, co jest sygnałem, a co szumem. W ten sposób metody bayesowskie przekształcają hałas w oszacowanie sygnału, ponieważ do wnioskowania i przewidywania wykorzystywany jest cały tył. Nadmierne dopasowanie i inne źródła błędu klasyfikacji modelu to inny rodzaj problemu w metodach bayesowskich.

Aby uprościć, przyjmijmy strukturę mówienia Ma i skupmy się na regresji liniowej i unikajmy dyskusji na temat głębokiego uczenia się, ponieważ, jak zauważa, alternatywne metody, o których wspomina, są tylko kompozycjami funkcji i istnieje bezpośredni związek między logiką liniowości regresja i głębokie uczenie się.

Rozważ następujący potencjalny model

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{3} .

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3.$ Stwórzmy szeroką próbkę wielkości

N

$N$ składa się z dwóch podpróbek,

n_{1}, n_{2}

$n_1,n_2$ , gdzie

n_{1}

$n_1$ jest zestawem treningowym i

n_{2}

$n_2$ jest zestawem walidacyjnym. Zobaczymy, dlaczego, z zastrzeżeniem kilku zastrzeżeń, metody bayesowskie nie wymagają osobnego zestawu szkoleń i walidacji.

W tej dyskusji musimy utworzyć osiem dodatkowych parametrów, po jednym dla każdego modelu. Oni są $m_1\dots{_8}$ . Podążają one za rozkładem wielomianowym i mają odpowiednie priorytety, podobnie jak współczynniki regresji. Osiem modeli to

y = β_{0} + β_{1} x_{1} + β_{2)} x_{2)} + β_{3)} x_{3)},

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3,$

y = β_{0},

$y=\beta_0,$

y = β_{0} + β_{1} x_{1},

$y=\beta_0+\beta_1x_1,$

y = β_{0} + β_{2)} x_{2)},

$y=\beta_0+\beta_2x_2,$

y = β_{0} + β_{3)} x_{3)},

$y=\beta_0+\beta_3x_3,$

y = β_{0} + β_{1} x_{1} + β_{2)} x_{2)},

$y=\beta_0+\beta_1x_1+\beta_2x_2,$

y = β_{0} + β_{1} x_{1} + β_{3)} x_{3)},

$y=\beta_0+\beta_1x_1+\beta_3x_3,$

y = β_{0} + β_{2)} x_{2)} + β_{3)} x_{3)},

$y=\beta_0+\beta_2x_2+\beta_3x_3,$

y = β_{0} + β_{1} x_{1},

$y=\beta_0+\beta_1x_1,$

y = β_{0} + β_{2)} x_{2)},

$y=\beta_0+\beta_2x_2,$ i

y = β_{0} + β_{3)} x_{3)} .

$y=\beta_0+\beta_3x_3.$

Teraz musimy zająć się różnicami między metodami bayesowskimi i częstymi. W zestawie treningowym $n_1,$ modelarz wykorzystujący metody Frequentist wybiera tylko jeden model. Modelarz wykorzystujący metody bayesowskie nie jest tak ograniczony. Chociaż modelista bayesowski mógłby użyć kryterium wyboru modelu, aby znaleźć tylko jeden model, mogą również stosować uśrednianie modelu. Modeler bayesowski może również swobodnie zmieniać wybrane modele w środkowej fazie segmentu walidacyjnego. Moreso, modelarz wykorzystujący metody bayesowskie może łączyć i dobierać między wyborem a uśrednianiem.

Aby dać prawdziwy przykład, przetestowałem 78 modeli bankructwa. Spośród 78 modeli łączne prawdopodobieństwo 76 z nich stanowiło około jednej dziesiątej tysięcznej jednego procenta. Pozostałe dwa modele miały odpowiednio około 54 procent i 46 procent. Na szczęście nie podzielili również żadnych zmiennych. To pozwoliło mi wybrać oba modele i zignorować pozostałe 76. Kiedy miałem wszystkie punkty danych dla obu, uśredniłem ich przewidywania na podstawie prawdopodobieństw późniejszych dwóch modeli, używając tylko jednego modelu, gdy brakowało punktów danych, co wykluczało inny. Chociaż miałem zestaw treningowy i zestaw walidacyjny, to nie z tego samego powodu, dla którego częsty je miał. Ponadto pod koniec każdego dnia w ciągu dwóch cykli biznesowych zaktualizowałem moje plakaty z danymi każdego dnia. Oznaczało to, że mój model na końcu zestawu walidacyjnego nie był modelem na końcu zestawu szkoleniowego. Modele Bayesa nie przestają się uczyć, podczas gdy modele Frequentist.

Sięgnijmy głębiej, zdobądźmy beton dzięki naszym modelom. Załóżmy, że podczas próby treningowej najlepiej pasował model Frequentist i model Bayesa z wykorzystaniem wyboru modelu lub, alternatywnie, że waga modelu w uśrednianiu modelu była tak duża, że była prawie nie do odróżnienia od modelu Frequentist. Wyobrażamy sobie ten model

y = β_{0} + β_{1} x_{1} + β_{2)} x_{2)} + β_{3)} x_{3)} .

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3.$ Wyobraźmy sobie również, że prawdziwym modelem w przyrodzie jest

y = β_{0} + β_{1} x_{1} + β_{3)} x_{3)} .

$y=\beta_0+\beta_1x_1+\beta_3x_3.$

Rozważmy teraz różnicę w zestawie sprawdzania poprawności. Model Frequentist jest zbyt dopasowany do danych. Załóżmy, że w pewnym momencie $n_2^i$ procedura wyboru lub walidacji modelu zmieniła wybór z natury na prawdziwy model. Ponadto, jeśli zastosowano uśrednianie modelu, wówczas prawdziwy model w naturze miał ciężar w przewidywaniu na długo przed wyborem modeli. ET Jaynes w swoim tomie na temat teorii prawdopodobieństwa poświęca trochę czasu na omawianie tego zagadnienia. Mam książkę w pracy, więc nie mogę dać ci dobrego cytatu, ale powinieneś ją przeczytać. Jego numer ISBN to 978-0521592710.

Modele są parametrami w myśleniu bayesowskim i jako takie są losowe lub, jeśli wolisz, niepewne. Ta niepewność nie kończy się podczas procesu walidacji. Jest stale aktualizowany.

Ze względu na różnice między metodami bayesowskimi i częstymi, istnieją inne rodzaje przypadków, które również należy wziąć pod uwagę. Pierwszy pochodzi z wnioskowania o parametrach, drugi z formalnych prognoz. Nie są tym samym w metodach bayesowskich. Metody bayesowskie formalnie oddzielają wnioskowanie i podejmowanie decyzji. Oddzielają także szacowanie i prognozowanie parametrów.

Wyobraźmy sobie, bez utraty ogólności, że model odniósłby sukces, gdyby $\hat{\sigma^2}<k$ aw przeciwnym razie niepowodzenie. Zignorujemy pozostałe parametry, ponieważ wypracowanie prostego pomysłu wymagałoby dodatkowej pracy. Dla modelarza stosującego metody bayesowskie jest to zupełnie inny typ pytania niż ten, który stosuje metody częstościowe.

Dla Frequentist tworzony jest test hipotez oparty na zestawie treningowym. Modeler używający metod Frequentist sprawdziłby, czy oszacowana wariancja jest większa, czy równa $k$ i spróbuj odrzucić wartość null dla próbki o rozmiarze $n_2$ ustawiając parametry na te odkryte w $n_1$ .

W przypadku modelarza stosującego metody bayesowskie tworzyliby oszacowania parametrów podczas próby $n_1$ i tylna gęstość $n_1$ stałby się priorytetem dla próbki $n_2$ . Zakładając, że właściwość wymienności jest zachowana, wówczas zapewnione jest, że oszacowanie z tyłu $n_2$ jest równy pod każdym względem słowem szacunku prawdopodobieństwa utworzonego ze wspólnej próbki. Podział ich na dwie próbki jest równoznaczny z siłą matematyki z tym, że wcale ich nie podzielił.

W przypadku prognoz istnieje podobny problem. Metody bayesowskie mają rozkład predykcyjny, który jest również aktualizowany przy każdej obserwacji, podczas gdy metoda częstokroć jest zamrożona na końcu próbki $n_1$ . Gęstość predykcyjna może być zapisana jako $\Pr(\tilde{x}=k|\mathbf{X})$ . Gdyby $\tilde{x}$ jest prognoza i $\mathbf{X}$ jest próbką, a następnie gdzie są parametry, które oznaczymy $\theta?$ Chociaż istnieją systemy predykcji częstokroć, większość ludzi po prostu traktuje oszacowania punktowe jako prawdziwe parametry i oblicza resztki. Metody bayesowskie oceniałyby każdą prognozę na podstawie przewidywanej gęstości, a nie tylko jednego punktu. Prognozy te nie zależą od parametrów, które różnią się od metod punktowych stosowanych w rozwiązaniach Frequentist.

Na marginesie, formalne gęstości predykcyjne częstościści istnieją przy użyciu standardowych błędów i można by na nich dokonać punktacji, ale w praktyce jest to rzadkie. Jeśli nie ma konkretnej wcześniejszej wiedzy, dwa zestawy prognoz powinny być identyczne dla tego samego zestawu punktów danych. Skończy się inaczej, ponieważ $n_1+n_2>n_1$ dlatego rozwiązanie bayesowskie zgromadzi więcej informacji.

Jeśli nie ma żadnych istotnych wcześniejszych informacji i jeżeli zamiast szacunków punktowych stosowane są gęstości predykcyjne częstościsty, to dla stałej próbki wyniki metod bayesowskich i częstościowych będą identyczne, jeśli zostanie wybrany jeden model. Jeśli są wcześniejsze informacje, metoda bayesowska będzie generować dokładniejsze prognozy. Różnica ta może być bardzo duża w praktyce. Ponadto, jeśli istnieje uśrednianie modelu, jest całkiem prawdopodobne, że metoda bayesowska będzie bardziej niezawodna. Jeśli użyjesz wyboru modelu i zamrozisz prognozy bayesowskie, nie ma różnicy w stosowaniu modelu częstego korzystania z predykcji częstych.

Użyłem zestawu testowego i walidacyjnego, ponieważ moich danych nie można było wymienić. W rezultacie musiałem rozwiązać dwa problemy. Pierwszy jest podobny do wypalania w metodach MCMC. Potrzebowałem dobrego zestawu oszacowań parametrów, aby rozpocząć sekwencję testową, więc wykorzystałem pięćdziesiąt lat wcześniejszych danych, aby uzyskać dobrą gęstość wcześniejszą, aby rozpocząć test sprawdzania poprawności. Drugi problem polegał na tym, że potrzebowałem pewnej formy znormalizowanego okresu do przetestowania, aby test nie był kwestionowany. Użyłem dwóch poprzednich cykli biznesowych datowanych przez NBER.

— Dave Harris
źródło

Ale powiedzmy, że oszacowałeś MAP dla modelu regresji liniowej z „nieinformacyjnymi” priorytetami. Byłoby to równoważne uzyskaniu oszacowania maksymalnego prawdopodobieństwa dla modelu, więc ML również nie potrzebuje zestawu testów, zakładając wymienność?

— Tim

„nadmierne dopasowanie to zjawisko, w którym szum jest traktowany jako sygnał i uwięziony w oszacowaniu parametru”. Uważam, że ta definicja jest specyficzna dla modeli szumu addytywnego. W przeciwnym razie przeregulowanie w stosunku do niedopasowania nie jest tak dobrze określone.

— Cagdas Ozgenc

@CagdasOzgenc dzięki. Czy masz sugerowaną edycję?

— Dave Harris

@ Tim Nigdy nie wspominałem o estymatorze MAP. Jeśli zredukujesz problem do estymatora MAP, to zrezygnujesz z niezawodności. Estymator MAP jest punktem, który minimalizuje funkcję kosztu w stosunku do gęstości. Może to być problematyczne w przypadku prognoz, jeśli gęstość nie ma wystarczającej statystyki. Estymator MAP z natury rzeczy utraciłby informacje. Jeśli korzystasz z estymatora MAP, którego nie ma w pierwotnym pytaniu i wyraźnie nie jest to część prezentacji Ma, to stwarzasz sobie inny zestaw problemów.

— Dave Harris

@Tim Estymator MAP pochodzi z Bayesowskiej teorii decyzji i jest nakładką na szacunki Bayesa i wnioskowanie. MAP jest wygodny. Przy wyborze wygody należy zapłacić. O ile funkcja kosztu „wszystko albo nic” nie jest twoją prawdziwą funkcją kosztów, rezygnujesz zarówno z informacji, jak i dokładności. Skończysz także z innymi problemami metodologicznymi niż zaproponowano w prezentacji Ma.

— Dave Harris

Czy to prawda, że ​​Bayesianie nie potrzebują zestawów testowych?

Czy to prawda, że Bayesianie nie potrzebują zestawów testowych?