Jaka jest różnica między iteracją wartości a iteracją polityki?

Question 1

Jaka jest różnica między iteracją polityki a iteracją wartości w uczeniu się przez wzmacnianie ?

O ile rozumiem, w iteracji wartości używasz równania Bellmana do rozwiązania optymalnej polityki, podczas gdy w iteracji polityki wybierasz losowo politykę π i znajdujesz nagrodę za tę politykę.

Wątpię, że jeśli wybierasz losową polisę π w PI, w jaki sposób gwarantuje się, że będzie to optymalna polityka, nawet jeśli wybieramy kilka przypadkowych polis.

Question 2

Przyjrzyjmy się im obok siebie. Podkreślono kluczowe części do porównania. Liczby pochodzą z książki Suttona i Barto: Reinforcement Learning: An Introduction .

Kluczowe punkty:

Iteracja polityki obejmuje: ocenę polityki + poprawę polityki , a obie te czynności są powtarzane aż do zbieżności polityki.
Iteracja wartości obejmuje: znajdowanie funkcji optymalnej wartości + ekstrakcja jednej polityki . Nie ma powtórzenia tych dwóch, ponieważ gdy funkcja wartości jest optymalna, wówczas polityka wychodząca z niej powinna być również optymalna (tj. Zbieżna).
Znalezienie funkcji o optymalnej wartości można również postrzegać jako połączenie ulepszenia polityki (ze względu na maksimum) i skróconej oceny polityki (ponowne przypisanie v_ (s) po zaledwie jednym przejrzeniu wszystkich stanów niezależnie od zbieżności).
Algorytmy oceny zasad i znajdowania funkcji wartości optymalnej są bardzo podobne, z wyjątkiem operacji maksymalnej (jak podkreślono)
Podobnie kluczowy krok w kierunku poprawy polityki i ekstrakcji polityki jest identyczny, z wyjątkiem tego, że pierwszy obejmuje kontrolę stabilności.

Z mojego doświadczenia wynika, że iteracja polityki jest szybsza niż iteracja wartości , ponieważ polityka konwerguje szybciej niż funkcja wartości. Pamiętam, że jest to również opisane w książce.

Wydaje mi się, że zamieszanie wynikało głównie z tych wszystkich nieco podobnych terminów, które również mnie wcześniej myliły.

Question 3

W algorytmach iteracji polityki zaczynasz od losowej polityki, następnie znajdujesz funkcję wartości tej polityki (krok oceny polityki), następnie znajdujesz nową (ulepszoną) politykę opartą na poprzedniej funkcji wartości i tak dalej. W tym procesie każda polityka gwarantuje ścisłe ulepszenie w stosunku do poprzedniej (chyba że jest już optymalna). Biorąc pod uwagę zasadę, jej funkcję wartości można uzyskać za pomocą operatora Bellmana .

W iteracji wartości zaczynasz od funkcji wartości losowej, a następnie znajdujesz nową (ulepszoną) funkcję wartości w procesie iteracyjnym, aż do osiągnięcia funkcji wartości optymalnej. Zauważ, że możesz łatwo wyprowadzić optymalną politykę z funkcji optymalnej wartości. Proces ten oparty jest na optymalności operatora Bellmana .

W pewnym sensie oba algorytmy mają tę samą zasadę działania i można je postrzegać jako dwa przypadki uogólnionej iteracji polityki . Jednak operator Bellmana optymalności zawiera operator max , który jest nieliniowy i dlatego ma różne cechy. Ponadto możliwe jest użycie metod hybrydowych między iteracją czystej wartości a iteracją czystej polityki.

Question 4

Podstawowa różnica to -

W iteracji zasad - losowo wybierasz politykę i znajdujesz odpowiadającą jej funkcję wartości, a następnie znajdujesz nową (ulepszoną) politykę opartą na poprzedniej funkcji wartości, i tak dalej prowadzi to do optymalnej polityki.

W iteracji wartości - losowo wybierasz funkcję wartości, a następnie znajdujesz nową (ulepszoną) funkcję wartości w procesie iteracyjnym, aż do osiągnięcia funkcji wartości optymalnej, a następnie wyprowadzasz optymalną politykę z tej funkcji wartości optymalnej.

Iteracja polityki działa na zasadzie „Ocena polityki —-> Poprawa polityki”.

Iteracja wartości działa na zasadzie „Optymalna funkcja wartości —-> optymalna polityka”.

Question 5

Jeśli o mnie chodzi, w przeciwieństwie do pomysłu @zyxue, VI jest generalnie dużo szybszy niż PI.

Powód jest bardzo prosty, jak już wiesz, równanie Bellmana służy do rozwiązywania funkcji wartości dla danej polityki. Ponieważ możemy rozwiązać funkcję wartości dla optymalnej polityki bezpośrednio , funkcja rozwiązywanie wartość dla bieżącej polityki jest oczywiście strata czasu.

Jeśli chodzi o twoje pytanie o zbieżność PI, myślę, że możesz przeoczyć fakt, że poprawiając strategię dla każdego stanu informacyjnego, ulepszasz strategię dla całej gry. Jest to również łatwe do udowodnienia, jeśli znasz alternatywne minimalizowanie żalu - suma żalu za każdy stan informacji stanowi górną granicę ogólnego żalu, a zatem minimalizacja żalu dla każdego stanu zminimalizuje ogólny żal, który prowadzi do optymalnej polityki.