SARSA i Q Learning to algorytmy uczenia wzmacniającego, które działają w podobny sposób. Najbardziej uderzającą różnicą jest to, że SARSA jest na polisie, podczas gdy Q Learning jest na polisie. Reguły aktualizacji są następujące:
Q Learning:
SARSA:
gdzie i są stanem, akcja i nagroda w kroku czasu a jest czynnikiem dyskontowym.
W większości wyglądają tak samo, z wyjątkiem tego, że w SARSA podejmujemy rzeczywiste działanie, aw Q Learning podejmujemy działanie z najwyższą nagrodą.
Czy są jakieś teoretyczne lub praktyczne ustawienia, w których jedno powinno być lepsze od drugiego? Widzę, że wykorzystanie maksimum w Q Learning może być kosztowne, a tym bardziej w przestrzeniach ciągłego działania. Ale czy jest coś jeszcze?