Statystyki i duże zbiory danych policy-iteration

Pytania otagowane jako policy-iteration

Dlaczego algorytm iteracji polityki jest zbieżny z optymalną funkcją polityki i wartości?

Czytałem notatki z wykładu Andrew Ng na temat uczenia się przez wzmacnianie i próbowałem zrozumieć, dlaczego iteracja polityki jest zbieżna z funkcją optymalnej wartości i optymalną polityką .V∗V∗V^*π∗π∗\pi^* Przypomnijmy, że iteracja zasad to: Zainicjuj π losowoPowtórz {L e t V. : =V.π \ dla bieżącej polityki, rozwiąż eqn bellman i …

10 reinforcement-learning policy-iteration