W odniesieniu do komentarza Robby'ego McKilliama: Myślę, że trudność, z jaką często borykający się z tym problem, wynika z definicji „wcześniejszej wiedzy”, a nie tyle ze zdolności włączenia wcześniejszej wiedzy do modelu. Rozważmy na przykład oszacowanie prawdopodobieństwa, że dana moneta trafi do głowy. Załóżmy, że moja wcześniejsza wiedza była w gruncie rzeczy eksperymentem, w którym ta moneta została obrócona 10 razy i otrzymała 5 głów, a może w postaci „fabryka wyprodukowała 1 milion monet i dystans , ponieważ określone przez ogromne eksperymenty, jest β ( a , b )pβ( a , b )". Każdy stosuje Regułę Bayesa, gdy naprawdę masz wcześniejsze informacje tego rodzaju (Reguła Bayesa określa jedynie warunkowe prawdopodobieństwo, nie jest to tylko kwestia Bayesowska), więc w rzeczywistości częsty i Bayesian stosowaliby to samo podejście, i włącz informacje do modelu za pomocą reguły Bayesa (zastrzeżenie: chyba że wielkość próbki jest wystarczająco duża, abyś był pewien, że wcześniejsze informacje nie będą miały wpływu na wyniki). Jednak interpretacja wyników jest następująca: oczywiście inny.
Trudności pojawiają się, szczególnie z filozoficznego punktu widzenia, ponieważ wiedza staje się mniej obiektywna / eksperymentalna i bardziej subiektywna. Gdy tak się stanie, częsty będzie prawdopodobnie mniej skłonny do włączania tych informacji do modelu, podczas gdy Bayesian wciąż ma jakieś mniej lub bardziej formalne mechanizmy do tego, trudności w uzyskiwaniu subiektywnego uprzedzenia pomimo tego.
W odniesieniu do regularyzacji: rozważ prawdopodobieństwo i wcześniejsze p ( θ ) . Nic nie stoi na przeszkodzie, by przynajmniej częstokroć, by częsty nie używał oszacowania maksymalnego prawdopodobieństwa „uregulowanego” przez log p ( θ ) , jak w:l ( θ ; x )p ( θ )logp ( θ )
θ~= maksθ{ logl ( θ ; x ) + logp ( θ ) }
Dla Gaussa oznacza to kwadratową karę zmniejszającą się θ w kierunku średniej Gaussa i tak dalej dla innych rozkładów. ˜ θp ( θ )θθ~ jest równe maksymalnemu oszacowaniu punktu a posteriori (MAP) bayesowskiego przy użyciu tej samej funkcji prawdopodobieństwa i wcześniejszej. Oczywiście ponownie interpretacja szacunków częstych i bayesowskich będzie się różnić. Bayesian nie jest również zobowiązany do korzystania z oszacowania punktu MAP, mając dostęp do pełnego rozkładu w odcinku bocznym - ale wtedy częsty nie musi również maksymalizować regularnego prawdopodobieństwa dziennika, będąc w stanie korzystać z różnych wiarygodnych oszacowań lub metody -momenty itp., jeśli są dostępne.
Ponownie trudność wynika z filozoficznego punktu widzenia. Dlaczego warto wybrać jedną funkcję regularyzacji zamiast innej? Bayesian może to zrobić - przechodząc do wcześniejszego widoku - oceniając wcześniejsze informacje. Częstotliwy miałby trudniejszy czas (nie byłby w stanie?) Uzasadnić wyboru z tych powodów, ale zamiast tego prawdopodobnie zrobiłby to w dużej mierze w oparciu o właściwości funkcji regularyzacji stosowanej do jego / jej rodzaju problemu, jak wynika z połączenia praca / doświadczenie wielu statystyk. OTOH, (pragmatyczni) Bayesianie robią to również z priors - gdybym miał 100 $ za każdy artykuł o priors za wariancje, które przeczytałem ...
Inne „myśli”: pominąłem cały problem wyboru funkcji prawdopodobieństwa, zakładając, że nie ma na nią wpływu punkt widzenia częstokrzyskiego / bayesowskiego. Jestem pewien, że w większości przypadków tak jest, ale mogę sobie wyobrazić, że w nietypowych sytuacjach byłoby to np. Z powodów obliczeniowych.
θθ