Czy to możliwe, że AIC i BIC dają zupełnie inne wybory modeli?

Wykonuję model regresji Poissona z 1 zmienną odpowiedzi i 6 współzmiennymi. Wybór modelu za pomocą AIC daje model ze wszystkimi zmiennymi towarzyszącymi, a także 6 warunkami interakcji. BIC daje jednak model z tylko 2 zmiennymi towarzyszącymi i bez warunków interakcji. Czy to możliwe, że dwa kryteria, które wyglądają bardzo podobnie, dają zupełnie inne wybory modeli?

— WBM
źródło

Jeśli nie byłoby możliwe uzyskanie różnych rekomendacji modeli z tych dwóch wskaźników, wówczas nie byłoby dwóch wskaźników, po prostu zawsze używalibyśmy jednego.

— Gregor Thomas

Słowo „zupełnie inny” jest trudne do interpretacji, gdy modele są wynikiem wyboru spośród zestawu dyskretnych parametrów.

— BallpointBen

Odpowiedzi:

Rzeczywiście jest to możliwe. Jak wyjaśniono na https://methodology.psu.edu/AIC-vs-BIC , „BIC silniej karze złożoność modelu. Jedynym sposobem, w jaki powinni się nie zgadzać, jest wybór przez AIC modelu większego niż BIC”.

Jeśli Twoim celem jest zidentyfikowanie dobrego modelu predykcyjnego, powinieneś użyć AIC. Jeśli Twoim celem jest znalezienie dobrego modelu wyjaśniającego, powinieneś użyć BIC. Rob Hyndman ładnie podsumowuje to zalecenie na
https://robjhyndman.com/hyndsight/to-explain-or-predict/ :

„AIC lepiej nadaje się do wyboru modelu do prognozowania, ponieważ jest asymptotycznie równoważny z pominięciem krzyżowej walidacji regresji lub walidacji krzyżowej w szeregu czasowym. Z drugiej strony można argumentować, że BIC lepiej nadaje się do wyboru modelu w celu wyjaśnienia, ponieważ jest spójny ”.

Zalecenie pochodzi z pracy Galit Shmueli „Wyjaśnić czy przewidzieć?”, Statistics Science, 25 (3), 289-310 ( https://projecteuclid.org/euclid.ss/1294167961 ).

Uzupełnienie:

Istnieje trzeci typ modelowania - modelowanie opisowe - ale nie znam żadnych odniesień, w których AIC lub BIC najlepiej nadaje się do identyfikacji optymalnego modelu opisowego. Mam nadzieję, że inni tutaj będą mogli wejść do swoich spostrzeżeń.

— Isabella Ghement
źródło

\ln n < 2

$\ln n < 2$

n \leq 7

$n \le 7$

Słuszna uwaga! Przy wielkości próbki 7 lub mniejszej, wyobrażam sobie, że wybór modelu nie jest możliwy. 😀

— Isabella Ghement

— Subhash C. Davar,

@ subhashc.davar: Jeszcze nie ma odpowiedzi - mam ochotę wysłać e-mail do Galit Shmueli i poprosić ją o przemyślenie na ten temat.

— Isabella Ghement,

Jeśli rozumiemy znaczenie „opisowy” i traktujemy go poważnie, nie jestem pewien, czy warto mówić o określeniu optymalnego modelu opisowego.

— gung - Przywróć Monikę

Krótka odpowiedź: tak, jest bardzo możliwa. Obie stosują różne kary w zależności od liczby oszacowanych parametrów (2k dla AIC w porównaniu z ln (n) xk dla BIC, gdzie k jest liczbą oszacowanych parametrów, a n jest wielkością próby). Zatem, jeśli przyrost prawdopodobieństwa z dodania parametru jest niewielki, BIC może wybrać inne modele niż AIC. Ten efekt zależy jednak od wielkości próbki.

— NatWH
źródło

byłoby miło powiedzieć, że n jest wielkością próbki w powyższym równaniu

— fabiob