Trusted Region Policy Optimization (TRPO) i Proximal Policy Optimization (PPO) to dwa najnowocześniejsze algorytmy gradientowe.
Podczas korzystania z pojedynczego działania ciągłego normalnie użyłbyś pewnego rozkładu prawdopodobieństwa (na przykład Gaussa) dla funkcji straty. Wersja przybliżona to:
gdzie jest zaletą nagród, charakteryzuje się i który pochodzi z sieci neuronowej, jak w środowisku Pendulum tutaj: https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f0/hw4/main.py .
Problem polega na tym, że nie mogę znaleźć żadnego artykułu na temat ciągłych działań 2+ przy użyciu gradientów polityki (nie metod krytyk aktorskich, które stosują inne podejście, przenosząc gradient z funkcji Q).
Czy wiesz, jak to zrobić za pomocą TRPO dla 2 ciągłych działań w środowisku LunarLander ?
Czy następujące podejście jest prawidłowe dla funkcji utraty gradientu polityki?