Pytania otagowane jako markov-models

4
Jaka jest różnica między iteracją wartości a iteracją polityki?
Jaka jest różnica między iteracją polityki a iteracją wartości w uczeniu się przez wzmacnianie ? O ile rozumiem, w iteracji wartości używasz równania Bellmana do rozwiązania optymalnej polityki, podczas gdy w iteracji polityki wybierasz losowo politykę π i znajdujesz nagrodę za tę politykę. Wątpię, że jeśli wybierasz losową polisę π …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.