Sztuczna inteligencja trpo

Pytania otagowane jako trpo

Jak zastosować gradienty polityki w przypadku wielu ciągłych działań?

Trusted Region Policy Optimization (TRPO) i Proximal Policy Optimization (PPO) to dwa najnowocześniejsze algorytmy gradientowe. Podczas korzystania z pojedynczego działania ciągłego normalnie użyłbyś pewnego rozkładu prawdopodobieństwa (na przykład Gaussa) dla funkcji straty. Wersja przybliżona to: L ( θ ) = log( P(za1) ) A ,L.(θ)=log⁡(P.(za1))ZA,L(\theta) = \log(P(a_1)) A, gdzie ZAZAA …

11 deep-learning reinforcement-learning trpo