Próbuję wykorzystać regresję RF do prognozowania wydajności papierni.
Mam dane minut po minucie dla danych wejściowych (szybkość i ilość miazgi drzewnej wchodzącej itp.), A także dla wydajności maszyny (wyprodukowany papier, moc pobierana przez maszynę) i szukam prognoz 10 minut wyprzedzić zmienne wydajności.
Mam 12 miesięcy danych, więc podzieliłem je na 11 miesięcy dla zestawu treningowego i ostatni miesiąc na testowanie.
Do tej pory stworzyłem 10 nowych funkcji, których wartości są opóźnione o 1-10 minut dla każdej zmiennej wydajności, i wykorzystałem je, a także dane wejściowe do prognozowania. Wydajność zestawu testowego była całkiem dobra (system jest dość przewidywalny), ale martwię się, że coś mi brakuje.
Na przykład w tym artykule autorzy podają swoje podejście do testowania zdolności predykcyjnej ich losowego modelu lasu:
Symulacja przebiega przez iteracyjne dodawanie nowego tygodnia danych, szkolenie nowego modelu na podstawie zaktualizowanych danych i przewidywanie liczby ognisk w następnym tygodniu
Czym różni się to od wykorzystywania „późniejszych” danych w szeregach czasowych do testowania? Czy powinienem sprawdzać poprawność mojego modelu regresji RF za pomocą tego podejścia, a także na zestawie danych testowych? Co więcej, czy takie „autoregresyjne” podejście do losowej regresji leśnej jest ważne dla szeregów czasowych i czy muszę nawet tworzyć tyle opóźnionych zmiennych, jeśli jestem zainteresowany prognozą na 10 minut w przyszłości?