Nie, to nie prawda. Metody bayesowskie z pewnością przewyższą dane. Istnieje kilka rzeczy, które sprawiają, że metody bayesowskie są bardziej odporne na nadmierne dopasowanie, a także można uczynić je bardziej kruchymi.
Kombinatoryczny charakter hipotez bayesowskich zamiast hipotez binarnych pozwala na wielokrotne porównania, gdy komuś brakuje „prawdziwego” modelu dla metod hipotezy zerowej. Bayesian posterior skutecznie karze wzrost struktury modelu, taki jak dodawanie zmiennych, jednocześnie nagradzając poprawę dopasowania. Kary i zyski nie są optymalizacjami, jak w przypadku metod nie bayesowskich, ale przesunięciem prawdopodobieństwa w stosunku do nowych informacji.
Chociaż ogólnie daje to bardziej solidną metodologię, istnieje ważne ograniczenie, które polega na stosowaniu odpowiednich wcześniejszych dystrybucji. Chociaż istnieje tendencja do naśladowania metod często używanych przez płaskich priorów, nie zapewnia to właściwego rozwiązania. Istnieją artykuły na temat nadmiernego dopasowania metodami bayesowskimi i wydaje mi się, że grzech wydaje się polegać na próbie „uczciwości” wobec metod nie bayesowskich, zaczynając od ściśle płaskich przeorów. Trudność polega na tym, że przeor jest ważny w normalizacji prawdopodobieństwa.
Modele bayesowskie są modelami wewnętrznie optymalnymi w sensie dopuszczalności słowa Walda, ale jest tam ukryty straszydło. Wald zakłada, że przeor jest twoim prawdziwym przeorem, a nie jakimś innym, którego używasz, aby redaktorzy nie przekręcali cię za umieszczanie w nim zbyt wielu informacji. Nie są optymalne w tym samym sensie, co modele Frequentist. Metody częstych rozpoczynają się od optymalizacji minimalizacji wariancji przy jednoczesnym zachowaniu obiektywności.
Jest to kosztowna optymalizacja, ponieważ odrzuca informacje i nie jest wewnętrznie dopuszczalna w sensie Walda, chociaż często jest dopuszczalna. Dlatego modele Frequentist zapewniają optymalne dopasowanie do danych, biorąc pod uwagę obiektywność. Modele bayesowskie nie są obiektywne ani optymalne do danych. Jest to transakcja, którą podejmujesz, aby zminimalizować nadmierne dopasowanie.
Modele bayesowskie są modelami wewnętrznie tendencyjnymi, chyba że zostaną podjęte specjalne kroki, aby uczynić je bezstronnymi, które zwykle są gorzej dopasowane do danych. Ich zaletą jest to, że nigdy nie używają mniej informacji niż alternatywna metoda do znalezienia „prawdziwego modelu”, a ta dodatkowa informacja sprawia, że modele bayesowskie nigdy nie są mniej ryzykowne niż modele alternatywne, szczególnie przy pracy z próbą. To powiedziawszy, zawsze będzie istniała próbka, która mogłaby zostać losowo dobrana i która systematycznie „wprowadzałaby w błąd” metodę bayesowską.
Jeśli chodzi o drugą część pytania, jeśli przeanalizujesz pojedynczą próbkę, a posterior zostanie na zawsze zmieniony we wszystkich jego częściach i nie powróci do poprzedniej, chyba że będzie druga próbka, która dokładnie skasuje wszystkie informacje w pierwsza próbka. Przynajmniej teoretycznie jest to prawda. W praktyce, jeśli przeor jest wystarczająco informacyjny, a obserwacja wystarczająco nieinformacyjna, wówczas wpływ może być tak mały, że komputer nie mógłby zmierzyć różnic z powodu ograniczenia liczby cyfr znaczących. Możliwe, że efekt jest zbyt mały, aby komputer mógł przetworzyć zmianę w odcinku bocznym.
Tak więc odpowiedź brzmi „tak”, możesz dopasować próbkę za pomocą metody bayesowskiej, szczególnie jeśli masz małą próbkę i niewłaściwe priory. Druga odpowiedź brzmi „nie” twierdzenie Bayesa nigdy nie zapomina o wpływie wcześniejszych danych, chociaż efekt może być tak mały, że można go pominąć obliczeniowo.