Korzystałem z pakietu Caret w R do budowania modeli predykcyjnych do klasyfikacji i regresji. Caret zapewnia zunifikowany interfejs do dostrajania hiperparametrów modelu poprzez weryfikację krzyżową lub wiązanie rozruchu. Na przykład, jeśli budujesz prosty model „najbliższych sąsiadów” do celów klasyfikacji, ilu sąsiadów powinieneś użyć? 2? 10? 100? Caret pomaga odpowiedzieć na to pytanie, ponownie próbkując dane, wypróbowując różne parametry, a następnie agregując wyniki, aby zdecydować, które dają najlepszą dokładność predykcyjną.
Podoba mi się to podejście, ponieważ zapewnia solidną metodologię wybierania hiperparametrów modelu, a po wybraniu ostatecznych hiperparametrów zapewnia weryfikację krzyżową oceny „dobrego” modelu przy użyciu dokładności do modeli klasyfikacji i RMSE dla modeli regresji.
Mam teraz pewne dane szeregów czasowych, dla których chcę zbudować model regresji, prawdopodobnie używając losowego lasu. Jaka jest dobra technika oceny dokładności predykcyjnej mojego modelu, biorąc pod uwagę charakter danych? Jeśli losowe lasy tak naprawdę nie dotyczą danych szeregów czasowych, jaki jest najlepszy sposób na zbudowanie dokładnego modelu zestawu do analizy szeregów czasowych?