1
Jak zastosować gradienty polityki w przypadku wielu ciągłych działań?
Trusted Region Policy Optimization (TRPO) i Proximal Policy Optimization (PPO) to dwa najnowocześniejsze algorytmy gradientowe. Podczas korzystania z pojedynczego działania ciągłego normalnie użyłbyś pewnego rozkładu prawdopodobieństwa (na przykład Gaussa) dla funkcji straty. Wersja przybliżona to: L ( θ ) = log( P(za1) ) A ,L.(θ)=log(P.(za1))ZA,L(\theta) = \log(P(a_1)) A, gdzie ZAZAA …