Pytania otagowane jako policy-iteration

2
Dlaczego algorytm iteracji polityki jest zbieżny z optymalną funkcją polityki i wartości?
Czytałem notatki z wykładu Andrew Ng na temat uczenia się przez wzmacnianie i próbowałem zrozumieć, dlaczego iteracja polityki jest zbieżna z funkcją optymalnej wartości i optymalną polityką .V∗V∗V^*π∗π∗\pi^* Przypomnijmy, że iteracja zasad to: Zainicjuj π losowoPowtórz {L e t V. : =V.π \ dla bieżącej polityki, rozwiąż eqn bellman i …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.