Czy optymalna polityka jest zawsze stochastyczna (tj. Mapa stanów do rozkładu prawdopodobieństwa na działania), jeśli środowisko jest również stochastyczne?
Nie.
Optymalna polityka jest zasadniczo deterministyczna, chyba że:
Brakuje ważnych informacji o stanie (POMDP). Na przykład na mapie, na której agent nie może znać swojej dokładnej lokalizacji ani pamiętać poprzednich stanów, a podany stan nie wystarcza do rozróżnienia między lokalizacjami. Jeśli celem jest dotarcie do określonej lokalizacji końcowej, optymalna polityka może obejmować losowe ruchy, aby uniknąć utknięcia. Zauważ, że środowisko w tym przypadku może być deterministyczne (z perspektywy kogoś, kto widzi cały stan), ale nadal może prowadzić do stochastycznej polityki, aby go rozwiązać.
Istnieje pewien scenariusz teorii gier minimax, w którym polityka deterministyczna może zostać ukarana przez środowisko lub innego agenta. Pomyśl o nożyczkach / papierze / kamieniu lub dylemacie więźnia.
Intuicyjnie, jeśli środowisko jest deterministyczne (to znaczy, jeśli agent jest w stanie 𝑠 i podejmuje działanie 𝑎, to następny stan 𝑠 ′ jest zawsze taki sam, bez względu na krok), wówczas optymalna polityka powinna być również deterministyczna (to znaczy powinna to być mapa stanów do akcji, a nie rozkład prawdopodobieństwa na akcje).
Wydaje się to rozsądne, ale tę intuicję możesz posunąć dalej za pomocą dowolnej metody opartej na funkcji wartości:
Jeśli znalazłeś optymalną funkcję wartości, to zachłanność w stosunku do niej jest optymalną polityką.
Powyższe stwierdzenie jest tylko naturalnym wyrażeniem równania optymalności Bellmana:
v∗( s ) =maxza∑r ,s′p ( r ,s′| s,a)(r+γv∗(s′) )
tzn. optymalne wartości są uzyskiwane zawsze przy wyborze akcji, która maksymalizuje nagrodę plus zdyskontowana wartość następnego kroku. Themaxza operacja jest deterministyczna (w razie potrzeby można zerwać powiązania dla wartości maksymalnej deterministycznie np. z uporządkowaną listą akcji).
Dlatego każde środowisko, które można modelować za pomocą MDP i rozwiązywać metodą opartą na wartościach (np. Iteracja wartości, Q-learning), ma optymalną politykę deterministyczną.
Jest możliwe w takim środowisku, że optymalne rozwiązanie może wcale nie być stochastyczne (tj. Jeśli dodasz dowolność do deterministycznej optymalnej polityki, polityka stanie się zdecydowanie gorsza). Jeśli jednak istnieją powiązania dla maksymalnej wartości dla jednego lub większej liczby działań w jednym lub większej liczbie stanów, istnieje wiele równoważnych optymalnych i deterministycznych polityk. Możesz stworzyć strategię stochastyczną, która łączy je w dowolną kombinację, i będzie również optymalna.