Próbując wybrać spośród różnych modeli lub liczby funkcji do uwzględnienia, powiedzmy przewidywanie, że mogę wymyślić dwa podejścia.
- Podziel dane na zestawy szkoleniowe i testowe. Jeszcze lepiej, użyj ładowania początkowego lub krzyżowej weryfikacji K-fold. Trenuj na zestawie treningowym za każdym razem i oblicz błąd w stosunku do zestawu testowego. Błąd testu wykresu a liczba parametrów. Zwykle dostajesz coś takiego:
- Oblicz prawdopodobieństwo modelu, całkując wartości parametrów. tj. oblicz i wykreśl to na podstawie liczby parametrów. Otrzymujemy wtedy coś takiego:
Więc moje pytania to:
- Czy te podejścia są odpowiednie do rozwiązania tego problemu (decydowanie, ile parametrów należy uwzględnić w modelu lub wybór spośród wielu modeli)?
- Czy są równoważne? Prawdopodobnie nie. Czy dadzą ten sam optymalny model przy pewnych założeniach lub w praktyce?
- Jakie są zalety i wady każdego podejścia, poza zwykłą filozoficzną różnicą określania wcześniejszej wiedzy w modelach bayesowskich itp.? Który wybrałbyś?
Aktualizacja: Znalazłem również powiązane pytanie dotyczące porównywania AIC i BIC. Wydaje się, że moja metoda 1 jest asymptotycznie równoważna AIC, a metoda 2 jest asymptotycznie powiązana z BIC. Ale przeczytałem tam również, że BIC jest odpowiednikiem CV Leave-One-Out. Oznaczałoby to, że minimum błędu szkolenia i maksimum prawdopodobieństwa Bayesa są równoważne, gdy LOO CV jest równoważne K-krotnie CV. Być może bardzo interesujący artykuł „ Teoria asymptotyczna wyboru modelu liniowego ” autorstwa Jun Shao dotyczy tych zagadnień.