Jest tutaj dobry artykuł ankietowy .
Jako szybki Podsumowując, dodatkowe w stosunku do metod Q-learning, istnieje również klasa metod polityki oparte, gdzie zamiast uczyć funkcję Q, bezpośrednio nauczyć najlepszą polityką do użytku.π
Metody te obejmują popularny algorytm REINFORCE, który jest algorytmem gradientów polityki. TRPO i GAE są podobnymi algorytmami gradientów polityki.
Istnieje wiele innych wariantów gradientów polityki i można je łączyć z Q-learningiem w ramach aktor-krytyk. Algorytm A3C - asynchroniczna korzyść aktor-krytyk - jest jednym z takich algorytmów aktor-krytyk i bardzo silną linią bazową w uczeniu się przez wzmocnienie.
Możesz także wyszukać najlepszą politykę , naśladując dane wyjściowe z optymalnego algorytmu sterowania, co nazywa się wyszukiwaniem polityki z przewodnikiem.π
Oprócz Q-learningu i gradientów zasad, które są zarówno stosowane w ustawieniach wolnych od modelu (żaden algorytm nie utrzymuje modelu świata), istnieją również metody oparte na modelach, które szacują stan świata. Modele te są cenne, ponieważ mogą być znacznie bardziej wydajne pod względem próbkowania.
Algorytmy oparte na modelach nie są wyłączne w przypadku gradientów zasad lub Q-learning. Powszechnym podejściem jest przeprowadzanie estymacji stanu / nauczenie się modelu dynamiki, a następnie szkolenie zasad nad szacowanym stanem.
Jeśli chodzi o klasyfikację, jeden podział byłby
- Uczenie się funkcji Q lub V.
- Metody oparte na zasadach
- Na podstawie modelu
Metody oparte na zasadach można dalej podzielić
- Gradienty polityki
- Aktor krytyk
- Wyszukiwanie zasad