Odpowiedziałem więc na pytanie dotyczące nadmiernego dopasowania, o którym wspomniałeś, obejrzałem wideo i przeczytałem post na blogu. Radford Neal nie twierdzi, że modele bayesowskie nie pasują do siebie. Pamiętajmy, że nadmierne dopasowanie to zjawisko, w którym szum jest traktowany jako sygnał i uwięziony w oszacowaniu parametru. To nie jest jedyne źródło błędu wyboru modelu. Dyskusja Neala jest jednak szersza, ponieważ odważa się na pomysł małej liczebności próby, którą podjął w dyskusji na temat nadmiernego dopasowania.
Pozwól mi częściowo zrewidować mój poprzedni post, że modele Bayesa mogą pasować do wszystkich modeli Bayesa, ale robię to w sposób, który poprawia przewidywanie. Ponownie, powrót do definicji mylenia sygnału z szumem, niepewność w metodach bayesowskich, rozkład a posteriori, jest kwantyfikacją tej niepewności co do tego, co jest sygnałem, a co szumem. W ten sposób metody bayesowskie przekształcają hałas w oszacowanie sygnału, ponieważ do wnioskowania i przewidywania wykorzystywany jest cały tył. Nadmierne dopasowanie i inne źródła błędu klasyfikacji modelu to inny rodzaj problemu w metodach bayesowskich.
Aby uprościć, przyjmijmy strukturę mówienia Ma i skupmy się na regresji liniowej i unikajmy dyskusji na temat głębokiego uczenia się, ponieważ, jak zauważa, alternatywne metody, o których wspomina, są tylko kompozycjami funkcji i istnieje bezpośredni związek między logiką liniowości regresja i głębokie uczenie się.
Rozważ następujący potencjalny model
y=β0+β1x1+β2x2+β3x3.
Stwórzmy szeroką próbkę wielkości
N składa się z dwóch podpróbek,
n1,n2, gdzie
n1 jest zestawem treningowym i
n2)jest zestawem walidacyjnym. Zobaczymy, dlaczego, z zastrzeżeniem kilku zastrzeżeń, metody bayesowskie nie wymagają osobnego zestawu szkoleń i walidacji.
W tej dyskusji musimy utworzyć osiem dodatkowych parametrów, po jednym dla każdego modelu. Oni sąm1…8. Podążają one za rozkładem wielomianowym i mają odpowiednie priorytety, podobnie jak współczynniki regresji. Osiem modeli to
y=β0+β1x1+β2)x2)+β3)x3),
y=β0,
y=β0+β1x1,
y=β0+β2)x2),
y=β0+β3)x3),
y=β0+β1x1+β2)x2),
y=β0+β1x1+β3)x3),
y=β0+β2)x2)+β3)x3),
y=β0+β1x1,
y=β0+β2)x2),
i
y=β0+β3)x3).
Teraz musimy zająć się różnicami między metodami bayesowskimi i częstymi. W zestawie treningowymn1,modelarz wykorzystujący metody Frequentist wybiera tylko jeden model. Modelarz wykorzystujący metody bayesowskie nie jest tak ograniczony. Chociaż modelista bayesowski mógłby użyć kryterium wyboru modelu, aby znaleźć tylko jeden model, mogą również stosować uśrednianie modelu. Modeler bayesowski może również swobodnie zmieniać wybrane modele w środkowej fazie segmentu walidacyjnego. Moreso, modelarz wykorzystujący metody bayesowskie może łączyć i dobierać między wyborem a uśrednianiem.
Aby dać prawdziwy przykład, przetestowałem 78 modeli bankructwa. Spośród 78 modeli łączne prawdopodobieństwo 76 z nich stanowiło około jednej dziesiątej tysięcznej jednego procenta. Pozostałe dwa modele miały odpowiednio około 54 procent i 46 procent. Na szczęście nie podzielili również żadnych zmiennych. To pozwoliło mi wybrać oba modele i zignorować pozostałe 76. Kiedy miałem wszystkie punkty danych dla obu, uśredniłem ich przewidywania na podstawie prawdopodobieństw późniejszych dwóch modeli, używając tylko jednego modelu, gdy brakowało punktów danych, co wykluczało inny. Chociaż miałem zestaw treningowy i zestaw walidacyjny, to nie z tego samego powodu, dla którego częsty je miał. Ponadto pod koniec każdego dnia w ciągu dwóch cykli biznesowych zaktualizowałem moje plakaty z danymi każdego dnia. Oznaczało to, że mój model na końcu zestawu walidacyjnego nie był modelem na końcu zestawu szkoleniowego. Modele Bayesa nie przestają się uczyć, podczas gdy modele Frequentist.
Sięgnijmy głębiej, zdobądźmy beton dzięki naszym modelom. Załóżmy, że podczas próby treningowej najlepiej pasował model Frequentist i model Bayesa z wykorzystaniem wyboru modelu lub, alternatywnie, że waga modelu w uśrednianiu modelu była tak duża, że była prawie nie do odróżnienia od modelu Frequentist. Wyobrażamy sobie ten model
y=β0+β1x1+β2)x2)+β3)x3).
Wyobraźmy sobie również, że prawdziwym modelem w przyrodzie jest
y=β0+β1x1+β3)x3).
Rozważmy teraz różnicę w zestawie sprawdzania poprawności. Model Frequentist jest zbyt dopasowany do danych. Załóżmy, że w pewnym momencienja2)procedura wyboru lub walidacji modelu zmieniła wybór z natury na prawdziwy model. Ponadto, jeśli zastosowano uśrednianie modelu, wówczas prawdziwy model w naturze miał ciężar w przewidywaniu na długo przed wyborem modeli. ET Jaynes w swoim tomie na temat teorii prawdopodobieństwa poświęca trochę czasu na omawianie tego zagadnienia. Mam książkę w pracy, więc nie mogę dać ci dobrego cytatu, ale powinieneś ją przeczytać. Jego numer ISBN to 978-0521592710.
Modele są parametrami w myśleniu bayesowskim i jako takie są losowe lub, jeśli wolisz, niepewne. Ta niepewność nie kończy się podczas procesu walidacji. Jest stale aktualizowany.
Ze względu na różnice między metodami bayesowskimi i częstymi, istnieją inne rodzaje przypadków, które również należy wziąć pod uwagę. Pierwszy pochodzi z wnioskowania o parametrach, drugi z formalnych prognoz. Nie są tym samym w metodach bayesowskich. Metody bayesowskie formalnie oddzielają wnioskowanie i podejmowanie decyzji. Oddzielają także szacowanie i prognozowanie parametrów.
Wyobraźmy sobie, bez utraty ogólności, że model odniósłby sukces, gdyby σ2)^< kaw przeciwnym razie niepowodzenie. Zignorujemy pozostałe parametry, ponieważ wypracowanie prostego pomysłu wymagałoby dodatkowej pracy. Dla modelarza stosującego metody bayesowskie jest to zupełnie inny typ pytania niż ten, który stosuje metody częstościowe.
Dla Frequentist tworzony jest test hipotez oparty na zestawie treningowym. Modeler używający metod Frequentist sprawdziłby, czy oszacowana wariancja jest większa, czy równak i spróbuj odrzucić wartość null dla próbki o rozmiarze n2) ustawiając parametry na te odkryte w n1.
W przypadku modelarza stosującego metody bayesowskie tworzyliby oszacowania parametrów podczas próby n1 i tylna gęstość n1 stałby się priorytetem dla próbki n2). Zakładając, że właściwość wymienności jest zachowana, wówczas zapewnione jest, że oszacowanie z tyłun2)jest równy pod każdym względem słowem szacunku prawdopodobieństwa utworzonego ze wspólnej próbki. Podział ich na dwie próbki jest równoznaczny z siłą matematyki z tym, że wcale ich nie podzielił.
W przypadku prognoz istnieje podobny problem. Metody bayesowskie mają rozkład predykcyjny, który jest również aktualizowany przy każdej obserwacji, podczas gdy metoda częstokroć jest zamrożona na końcu próbkin1. Gęstość predykcyjna może być zapisana jakoPr (x~= k | X ). Gdybyx~ jest prognoza i X jest próbką, a następnie gdzie są parametry, które oznaczymy θ ? Chociaż istnieją systemy predykcji częstokroć, większość ludzi po prostu traktuje oszacowania punktowe jako prawdziwe parametry i oblicza resztki. Metody bayesowskie oceniałyby każdą prognozę na podstawie przewidywanej gęstości, a nie tylko jednego punktu. Prognozy te nie zależą od parametrów, które różnią się od metod punktowych stosowanych w rozwiązaniach Frequentist.
Na marginesie, formalne gęstości predykcyjne częstościści istnieją przy użyciu standardowych błędów i można by na nich dokonać punktacji, ale w praktyce jest to rzadkie. Jeśli nie ma konkretnej wcześniejszej wiedzy, dwa zestawy prognoz powinny być identyczne dla tego samego zestawu punktów danych. Skończy się inaczej, ponieważn1+n2)>n1 dlatego rozwiązanie bayesowskie zgromadzi więcej informacji.
Jeśli nie ma żadnych istotnych wcześniejszych informacji i jeżeli zamiast szacunków punktowych stosowane są gęstości predykcyjne częstościsty, to dla stałej próbki wyniki metod bayesowskich i częstościowych będą identyczne, jeśli zostanie wybrany jeden model. Jeśli są wcześniejsze informacje, metoda bayesowska będzie generować dokładniejsze prognozy. Różnica ta może być bardzo duża w praktyce. Ponadto, jeśli istnieje uśrednianie modelu, jest całkiem prawdopodobne, że metoda bayesowska będzie bardziej niezawodna. Jeśli użyjesz wyboru modelu i zamrozisz prognozy bayesowskie, nie ma różnicy w stosowaniu modelu częstego korzystania z predykcji częstych.
Użyłem zestawu testowego i walidacyjnego, ponieważ moich danych nie można było wymienić. W rezultacie musiałem rozwiązać dwa problemy. Pierwszy jest podobny do wypalania w metodach MCMC. Potrzebowałem dobrego zestawu oszacowań parametrów, aby rozpocząć sekwencję testową, więc wykorzystałem pięćdziesiąt lat wcześniejszych danych, aby uzyskać dobrą gęstość wcześniejszą, aby rozpocząć test sprawdzania poprawności. Drugi problem polegał na tym, że potrzebowałem pewnej formy znormalizowanego okresu do przetestowania, aby test nie był kwestionowany. Użyłem dwóch poprzednich cykli biznesowych datowanych przez NBER.