Jak można wykryć, czy proces gaussowski jest nadmiernie dopasowany?

Uczę procesu Gaussa z jądrem ARD z wieloma parametrami, maksymalizując krańcowe rozszerzanie danych, zamiast walidacji krzyżowej.

Podejrzewam, że to jest nadmierne dopasowanie. Jak mogę przetestować to podejrzenie w kontekście bayesowskim?

machine-learning cross-validation gaussian-process

— nickponline
źródło

Najprościej byłoby dopasować proces Gaussa do funkcji kowariancji innej niż ARD (zwykle RBF) i porównać wskaźniki błędów testu. W przypadku wielu problemów funkcja kowariancji ARD działa gorzej niż funkcja kowariancji innej niż ARD z powodu nadmiernego dopasowania dostrajania hiperparametrów. Ponieważ kowariancja RBF jest szczególnym przypadkiem kowariancji ARD, jeśli RBF działa lepiej, jest to mocne wskazanie, że jądro ARD jest nadmiernie dopasowane (zacznij optymalizować współczynniki ARD przy optymalnych wartościach dla odpowiedniej kowariancji RBF, jest to szybciej, a także pomaga upewnić się, że problem z kowariancją ARD nie wynika wyłącznie z minimów lokalnych na marginalnym prawdopodobieństwie). Jest to znacznie większy problem, niż się powszechnie ocenia.

Napisałem na ten temat kilka artykułów:

GC Cawley i NLC Talbot, Zapobieganie nadmiernemu dopasowaniu podczas wyboru modelu poprzez bayesowską regularyzację hiperparametrów, Journal of Machine Learning Research, tom 8, strony 841-861, kwiecień 2007 ( pdf )

GC Cawley i NLC Talbot, Nadmierne dopasowanie w wyborze modelu, a następnie uprzedzenie wyboru w ocenie wydajności, Journal of Machine Learning Research, 2010. Research, vol. 11, s. 2079–2107, lipiec 2010 r. ( Pdf )

Pierwszy obejmuje niektóre eksperymenty z lekarzami rodzinnymi, które pokazują, że nadmierne dopasowanie w wyborze modelu jest również problemem dla lekarzy rodzinnych z wyborem modelu opartym na maksymalnym prawdopodobieństwie.

Bardziej dokładna analiza polegałaby na ocenie błędu testu GP na każdym etapie optymalizacji marginalnego prawdopodobieństwa. Jest wysoce prawdopodobne, że uzyskasz klasyczną ocenę nadmiernego dopasowania, w której kryterium wyboru modelu maleje monotonicznie, ale błąd testu początkowo maleje, ale potem zaczyna ponownie rosnąć, ponieważ kryterium wyboru modelu jest nadmiernie zoptymalizowane (por. Ryc. 2a w dokumencie JMLR z 2010 r.).

— Dikran Torbacz
źródło

Fajne dzięki - czytam teraz pierwszy. Czy natrafiłeś na bardziej skuteczny sposób, aby ponownie uregulować nadmierne dopasowanie do jąder z wieloma parametrami, takimi jak ARD, jeśli termin złożoności modelu o krańcowym prawdopodobieństwie nie jest wystarczający, aby zapobiec nadmiernemu dopasowaniu?

— nickponline

Podejrzewam, że najsolidniejszą rzeczą byłoby zmarginalizowanie hiperparametrów przy użyciu metod Markova Chain Monte Carlo. Pod względem wielkości zbioru danych, do którego lekarze GP zwykle się przyzwyczajają (do kilku tysięcy wzorów), podejrzewam, że nadmierne dopasowanie krańcowego prawdopodobieństwa jest prawie nieuniknione. Optymalizacja IMHO jest źródłem wszelkiego zła w statystykach, gdy tylko zoptymalizujesz cokolwiek, ryzykujesz nadmiernym dopasowaniem. Podejście bayesowskie jest w tym sensie znacznie lepsze, ale zamiast tego ryzykujesz trudności, ponieważ priory się mylą :-(

— Dikran Marsupial

@DikranMarsupial Czy są jakieś najnowsze badania na temat tego, jak uniknąć nadmiernego dopasowania za pomocą metod Varational GP?

— imsrgadich