Po przeczytaniu książki Galit Shmueli „Wyjaśnić lub przewidzieć” (2010) zastanawia mnie pozorna sprzeczność. Istnieją trzy przesłanki,
- AIC - wybór modelu na podstawie BIC (koniec str. 300 - początek str. 301): po prostu, AIC powinien być używany do wybierania modelu przeznaczonego do przewidywania, podczas gdy BIC powinien być używany do wybierania modelu do wyjaśnienia . Dodatkowo (nie w powyższej pracy) wiemy, że pod pewnymi warunkami BIC wybiera prawdziwy model spośród zestawu modeli kandydujących; prawdziwym modelem jest to, czego szukamy w modelowaniu objaśniającym (koniec str. 293).
- Prosta arytmetyka: AIC wybierze większy model niż BIC dla próbek o rozmiarze 8 lub większym (spełniające powodu różnych kar za złożoność w AIC w porównaniu do BIC).
- Model „prawdziwy” (tj. Model z prawidłowymi regresorami i prawidłową formą funkcjonalną, ale niedokładnie oszacowanymi współczynnikami) może nie być najlepszym modelem do prognozowania (s. 307): model regresji z brakującym predyktorem może być lepszym modelem prognostycznym - wprowadzenie błędu systematycznego z powodu brakującego predyktora może być przeważone przez zmniejszenie wariancji z powodu niedokładności oszacowania.
Punkty 1. i 2. sugerują, że większe modele mogą być lepsze do przewidywania niż modele bardziej oszczędne. Tymczasem punkt 3. podaje odwrotny przykład, w którym model bardziej oszczędny jest lepszy do przewidywania niż model większy. Uważam to za zagadkowe.
Pytania:
- Jak pozorna sprzeczność między punktami {1. oraz 2.} i 3. zostać wyjaśnione / rozwiązane?
- W świetle punktu 3., czy mógłbyś podać intuicyjne wyjaśnienie, dlaczego i jak większy model wybrany przez AIC jest rzeczywiście lepszy do przewidywania niż bardziej oszczędny model wybrany przez BIC?