Regresja losowa lasu dla prognoz szeregów czasowych

Próbuję wykorzystać regresję RF do prognozowania wydajności papierni.

Mam dane minut po minucie dla danych wejściowych (szybkość i ilość miazgi drzewnej wchodzącej itp.), A także dla wydajności maszyny (wyprodukowany papier, moc pobierana przez maszynę) i szukam prognoz 10 minut wyprzedzić zmienne wydajności.

Mam 12 miesięcy danych, więc podzieliłem je na 11 miesięcy dla zestawu treningowego i ostatni miesiąc na testowanie.

Do tej pory stworzyłem 10 nowych funkcji, których wartości są opóźnione o 1-10 minut dla każdej zmiennej wydajności, i wykorzystałem je, a także dane wejściowe do prognozowania. Wydajność zestawu testowego była całkiem dobra (system jest dość przewidywalny), ale martwię się, że coś mi brakuje.

Na przykład w tym artykule autorzy podają swoje podejście do testowania zdolności predykcyjnej ich losowego modelu lasu:

Symulacja przebiega przez iteracyjne dodawanie nowego tygodnia danych, szkolenie nowego modelu na podstawie zaktualizowanych danych i przewidywanie liczby ognisk w następnym tygodniu

Czym różni się to od wykorzystywania „późniejszych” danych w szeregach czasowych do testowania? Czy powinienem sprawdzać poprawność mojego modelu regresji RF za pomocą tego podejścia, a także na zestawie danych testowych? Co więcej, czy takie „autoregresyjne” podejście do losowej regresji leśnej jest ważne dla szeregów czasowych i czy muszę nawet tworzyć tyle opóźnionych zmiennych, jeśli jestem zainteresowany prognozą na 10 minut w przyszłości?

— KRS-fun
źródło

RF nie są zaprojektowane i nie uwzględniają w sposób wyraźny rozważań czasowych. Biorąc to pod uwagę, po co w ogóle wykorzystywać je do tej analizy? Istnieje wiele metodologii szeregów czasowych. Wybierz jedno.

— Mike Hunter

@DJohnson Myślałem, że spróbuję naśladować podejście z artykułu: spróbuj RF i porównaj to z ARIMA. Czy sugerujesz, że to nie jest warte czasu i po prostu korzystasz z ARIMA?

— KRS-fun

@DJohnson, mechanika modeli autoregresyjnych jest bardzo podobna do modeli regresji przekrojowej. Po zbudowaniu opóźnionych funkcji, dlaczego nie zastosować RF jak w ustawieniu przekroju? Myślę, że wypróbowanie ich jest uczciwe. Ale masz rację, że inne metody są bardziej popularne w szeregach czasowych, a OP może również skorzystać z ich zbadania.

— Richard Hardy

Moim zdaniem RF są jak młotek, w którym wszystko staje się gwoździem. Z danymi opisanymi przez PO, moim pierwszym wyborem będzie model danych lub model z puli, a nie ARIMA.

— Mike Hunter

Właśnie się z tym spotkałem i przeczytałem gazetę, o której wspomniałem kilka dni temu. Porównuję losowy las i LSTM do wielowymiarowego prognozowania szeregów czasowych. Co ciekawe, LSTM radzi sobie lepiej, jeśli uwzględnia mniej czasu na danych szkoleniowych, ale jak dodam w kolejnych latach danych, wyniki obu metod są zbieżne z prawdziwymi wynikami. Myślę, że dzieje się tak głównie dlatego, że funkcje zapewniają wystarczającą ilość informacji, aby pokonać składnik czasowy. Tak czy inaczej, myślałem, że to interesujące. Ponadto, nigdy nie widziałem, aby ARIMA działała dobrze, z wyjątkiem bardzo oczywistych przypadków sezonowych, a wielowymiarowa ARIMA to ...

— Hobbes

Czym różni się to od wykorzystywania „późniejszych” danych w szeregach czasowych do testowania?

Podane przez ciebie podejście nazywa się prognozowaniem „kroczącym źródłem”: początek, z którego prognozujemy, jest „kroczący naprzód”, a dane szkoleniowe są aktualizowane o nowo dostępne informacje. Prostszym podejściem jest „prognozowanie pojedynczego źródła”, w którym wybieramy jedno źródło.

Zaletą kroczącego prognozowania pochodzenia jest to, że symuluje on system prognozowania w czasie . W prognozowaniu pojedynczego źródła możemy przypadkowo wybrać źródło, w którym nasz system działa bardzo dobrze (lub bardzo źle), co może dać nam błędne wyobrażenie o wydajności naszego systemu.

Wadą prognozowania kroczącego źródła jest jego większe zapotrzebowanie na dane. Jeśli chcemy przewidzieć 10 kroków z co najmniej 50 obserwacjami historycznymi, możemy to zrobić pojedynczo z 60 punktami danych ogółem. Ale jeśli chcemy zrobić 10 pokrywających się początkowych zmiennych, potrzebujemy 70 punktów danych.

Drugą wadą jest oczywiście większa złożoność.

Nie trzeba dodawać, że nie należy również wykorzystywać „późniejszych” danych w kroczącym prognozowaniu początku, ale należy używać tylko danych przed źródłem, którego używasz w każdej iteracji.

Czy powinienem sprawdzać poprawność mojego modelu regresji RF za pomocą tego podejścia, a także na zestawie danych testowych?

Jeśli masz wystarczającą ilość danych, ciągła ocena pochodzenia zawsze wzbudzi we mnie większe zaufanie niż ocena pojedynczego pochodzenia, ponieważ, mam nadzieję, uśredni wpływ źródła.

Co więcej, czy takie „autoregresyjne” podejście do losowej regresji leśnej jest ważne dla szeregów czasowych i czy muszę nawet tworzyć tyle opóźnionych zmiennych, jeśli jestem zainteresowany prognozą na 10 minut w przyszłości?

Tak, prognozy kroczące w stosunku do pojedynczego źródła są ważne dla każdego ćwiczenia predykcyjnego. Nie zależy to od tego, czy korzystasz z losowych lasów, ARIMA czy czegokolwiek innego.

Czy potrzebujesz opóźnionych zmiennych, nie możemy Ci doradzić. Najlepiej porozmawiać z ekspertem, który może również zasugerować inne informacje. Po prostu wypróbuj swoje RF z opóźnionymi wejściami vs. bez. A także porównaj ze standardowymi testami porównawczymi, takimi jak ARIMA lub ETS, lub nawet prostszymi metodami, które mogą być zaskakująco trudne do pokonania .

— Stephan Kolassa
źródło