Interesuje mnie wybór modelu w ustawieniach szeregów czasowych. Dla konkretności załóżmy, że chcę wybrać model ARMA z puli modeli ARMA o różnych rzędach opóźnień. Ostatecznym celem jest prognozowanie .
Wyboru modelu można dokonać za pomocą
- krzyżowa walidacja,
- stosowanie kryteriów informacyjnych (AIC, BIC),
wśród innych metod.
Rob J. Hyndman zapewnia sposób krzyżowej weryfikacji szeregów czasowych . W przypadku stosunkowo małych próbek wielkość próbki zastosowana w walidacji krzyżowej może być jakościowo różna od pierwotnej wielkości próbki. Na przykład, jeśli pierwotna wielkość próby wynosi 200 obserwacji, wówczas można pomyśleć o rozpoczęciu walidacji krzyżowej, biorąc pierwsze 101 obserwacji i rozszerzając okno do 102, 103, ..., 200 obserwacji, aby uzyskać 100 wyników walidacji krzyżowej. Oczywiście model, który jest dość oszczędny dla 200 obserwacji, może być zbyt duży dla 100 obserwacji, a zatem jego błąd walidacji będzie duży. W ten sposób krzyżowa walidacja prawdopodobnie będzie systematycznie faworyzować zbyt oszczędne modele. Jest to niepożądany efekt ze względu na niedopasowanie wielkości próbek .
Alternatywą dla krzyżowej weryfikacji jest zastosowanie kryteriów informacyjnych do wyboru modelu. Ponieważ zależy mi na prognozowaniu, użyłbym AIC. Mimo że AIC jest asymptotycznie równoważne z minimalizacją jednostopniowego prognozowania MSE poza próbą dla modeli szeregów czasowych (zgodnie z tym postem Roba J. Hyndmana), wątpię, aby miało to znaczenie od czasu próby Rozmiary, na których mi zależy, nie są aż tak duże ...
Pytanie: czy powinienem wybrać AIC zamiast krzyżowej weryfikacji szeregów czasowych dla małych / średnich próbek?
Kilka powiązanych pytań można znaleźć tutaj , tutaj i tutaj .