Pytania otagowane jako trpo

1
Jak zastosować gradienty polityki w przypadku wielu ciągłych działań?
Trusted Region Policy Optimization (TRPO) i Proximal Policy Optimization (PPO) to dwa najnowocześniejsze algorytmy gradientowe. Podczas korzystania z pojedynczego działania ciągłego normalnie użyłbyś pewnego rozkładu prawdopodobieństwa (na przykład Gaussa) dla funkcji straty. Wersja przybliżona to: L ( θ ) = log( P(za1) ) A ,L.(θ)=log⁡(P.(za1))ZA,L(\theta) = \log(P(a_1)) A, gdzie ZAZAA …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.