Czy uczenie się przez wzmocnienie można zastosować do prognozowania szeregów czasowych?

Tak, ale ogólnie rzecz biorąc, nie jest to dobre narzędzie do wykonania zadania, chyba że istnieje istotna informacja zwrotna między prognozami a bieżącym zachowaniem systemu.

Aby skonstruować problem uczenia się zbrojenia (RL), w którym warto zastosować algorytm przewidywania lub sterowania RL, musisz zidentyfikować niektóre komponenty:

Środowisko , które w jednym z wielu stanów , które mogą być zmierzone / obserwowanych w sekwencji.
Czynnik , który może obserwować bieżące państwowych i podjąć działania w tej samej kolejności.
Ewolucja stanu w kolejności powinna zależeć od pewnej kombinacji bieżącego stanu i działania podjęte, a także mogą być stochastyczny.
Powinien istnieć sygnał nagrody , który agent RL może zaobserwować lub zmierzyć. Wartość nagrody powinna zależeć od tych samych czynników, co ewolucja państwa, ale może zależeć od nich w inny sposób.

Ogólny przypadek prognozowania szeregów czasowych można dopasować do tego, traktując prognozę jako akcję, mając ewolucję stanu zależną tylko od aktualnego stanu (plus losowość) oraz nagrodę opartą na stanie i działaniu. Umożliwi to zastosowanie RL, ale przyczynowość przepływa tylko w jedną stronę - ze środowiska do modelu predykcyjnego. W związku z tym najlepszym rozwiązaniem, na przykład w przypadku nagród, jest użycie pewnej miary dotyczącej poprawności prognoz. Konsekwencje dobrych lub złych prognoz nie wpływają na oryginalne środowisko. Zasadniczo skończysz owijanie pewnego modelu predykcyjnego dla sekwencji (np. Sieci neuronowej) w warstwę RL, którą można łatwo zastąpić podstawową obsługą zestawu danych dla nadzorowanego problemu uczenia się.

Jeden sposób mogłyby znacząco przedłużyć problemy seria prognozowania problemy RL jest zwiększenie zakresu środowiska obejmują decyzje podjęte w oparciu o prognozy i stanu systemów, które są dotknięte tymi decyzjami. Na przykład, jeśli prognozujesz ceny akcji, dołącz swój portfel i fundusze do stanu. Podobnie działania przestają być przewidywaniami, stają się poleceniami kupna i sprzedaży. Nie poprawi to komponentu przewidywania cen (i prawdopodobnie lepiej potraktować to jako osobny problem, stosując bardziej odpowiednie narzędzia - np. LSTM), ale ogólnie ujmuje problem jako problem RL.

— Neil Slater
źródło