Programowanie value-iteration

Pytania otagowane jako value-iteration

Jaka jest różnica między iteracją wartości a iteracją polityki?

Jaka jest różnica między iteracją polityki a iteracją wartości w uczeniu się przez wzmacnianie ? O ile rozumiem, w iteracji wartości używasz równania Bellmana do rozwiązania optymalnej polityki, podczas gdy w iteracji polityki wybierasz losowo politykę π i znajdujesz nagrodę za tę politykę. Wątpię, że jeśli wybierasz losową polisę π …

94 machine-learning reinforcement-learning markov-models value-iteration