Jaka jest różnica między uczeniem się poza polityką a uczeniem się na podstawie polityki?


78

Witryna sztucznej inteligencji definiuje uczenie się poza polityką i nauczanie na zasadach w następujący sposób:

„Osoba ucząca się poza polityką poznaje wartość optymalnej polityki niezależnie od działań agenta. Q-learning jest osobą uczącą się poza polityką. Uczący się polityki poznaje wartość polityki realizowanej przez agenta, w tym kroki eksploracji . ”

Chciałbym prosić o wyjaśnienie w tej sprawie, ponieważ wydaje się, że nie mają one dla mnie żadnego znaczenia. Obie definicje wydają się identyczne. To, co właściwie zrozumiałem, to uczenie się bez modeli i oparte na modelach i nie wiem, czy mają one coś wspólnego z tymi, o których mowa.

W jaki sposób możliwe jest poznanie optymalnej polityki niezależnie od działań agenta? Czy zasady nie są uczone, gdy agent wykonuje działania?


1
Dodałem komentarz do stackoverflow.com/questions/6848828/... , część TL; NR może być również pomocna w zrozumieniu.
zyxue

oto dobre wytłumaczenie nb4799.neu.edu/wordpress/?p=1850
Ivan Kush

Chciałbym również dodać, że istnieje wariant SARSA niezgodny z polityką. Ten artykuł ( cs.ox.ac.uk/people/shimon.whiteson/pubs/vanseijenadprl09.pdf ) dokona przeglądu zasad włączania i wyłączania we wstępie, a następnie wyjaśni oczekiwaną sarsę. Sprawdź także oczekiwane gradienty polityki (EPG), aby znaleźć bardziej ogólną teorię, która łączy te dwa typy.
Josh Albert

Odpowiedzi:


93

Po pierwsze, nie ma powodu, aby agent musiał robić chciwe działania ; Agenci mogą eksplorować lub mogą śledzić opcje . Nie to odróżnia uczenie się od polityki od nauki poza polityką.

s a

sa

Rozróżnienie znika, jeśli obecna polityka jest polityką chciwą. Jednak taki agent nie byłby dobry, ponieważ nigdy nie bada.

Czy obejrzałeś książkę dostępną za darmo online? Richard S. Sutton i Andrew G. Barto. Uczenie się przez wzmocnienie: wprowadzenie. Druga edycja, MIT Press, Cambridge, MA, 2018.


8
ładne wyjaśnienie! Twój przykład na temat Q-learningu jest lepiej sformułowany niż w książce Sutton, która mówi: „ wyuczona funkcja wartość akcji, Q, bezpośrednio przybliża Q *, optymalna funkcja wartość akcji, niezależnie od stosowanej polityki. To znacznie upraszcza analiza algorytmu i włączone dowody wczesnej konwergencji. Polityka nadal ma wpływ na to, że określa, które pary państwo-akcja są odwiedzane i aktualizowane.
Ciprian Tomoiagă

3
Ogólnie rzecz biorąc, nie uważam Sutton i Barto za bardzo czytelnych. Uważam, że wyjaśnienia, które oferują, nie są zbyt zrozumiałe. Nie jestem pewien, dlaczego ich książka jest polecana wszędzie
SN

@SN Dla wielu studentów nauki wzmacniającej Sutton i Barto to pierwsza przeczytana książka.
Neil G

3
@JakubArnold oryginalna książka Sutton & Barto pochodzi z 1998 roku i nie obejmuje uczenia się o głębokim wzmocnieniu. W drugim wydaniu wspomniano tylko o AlphaGo, ale książka koncentruje się na bardziej klasycznych podejściach. Jeśli chcesz więcej zasobów RL, spójrz na tę listę . Sugeruję filmy Davida Silvera i książkę Putermana, ponieważ są bardziej dostępne. Aby uzyskać więcej materiału teoretycznego, polecam książki Bertsekasa. Zajrzyj na stronę Spinning Up dla algorytmów DRL i linków do oryginalnych artykułów.
Douglas De Rizzo Meneghetti

1
@AlbertChen „Więc w tym przypadku zależy to od eksploracji, czy nie”: Nie, ponieważ eksplorują oba algorytmy. Różnica polega na tym, jak Q jest aktualizowany.
Neil G

12

Metody na polisie szacują wartość polityki podczas używania jej do kontroli.

W off-politycznych metodami, polityka wykorzystywane do generowania zachowań, zwany zachowanie polityki, może być związane z polityką, która jest oceniana i poprawy, zwany szacowania politykę.

Zaletą tego oddzielenia jest to, że polityka szacowania może być deterministyczna (np. Zachłanna), podczas gdy polityka zachowania może kontynuować próbkowanie wszystkich możliwych działań.

Aby uzyskać więcej informacji, zobacz sekcje 5.4 i 5.6 książki Reinforcement Learning: An Introduction autorstwa Barto i Sutton, pierwsze wydanie.


7

Różnica między metodami niezgodnymi z polisami i metodami związanymi z polisami polega na tym, że przy pierwszym nie trzeba stosować się do żadnych konkretnych zasad, agent może nawet zachowywać się losowo, a mimo to metody niezgodne z zasadami nadal mogą znaleźć optymalne zasady. Z drugiej strony metody stosowane w polisach zależą od zastosowanych zasad. W przypadku Q-Learning, która jest poza polisą, znajdzie optymalną politykę niezależną od polityki używanej podczas eksploracji, jednak jest to prawdą tylko wtedy, gdy odwiedzasz różne stany wystarczająco często. W oryginalnym artykule Watkinsa można znaleźć rzeczywisty dowód, który pokazuje tę bardzo ładną właściwość Q-Learning. Istnieje jednak kompromis, czyli metody niezgodne z polityką są zwykle wolniejsze niż metody zgodne z polityką. Tutaj link z innym interesującym podsumowaniem właściwości obu rodzajów metod


1
Metody niezgodne z polityką są nie tylko wolniejsze, ale mogą być niestabilne w połączeniu z ładowaniem początkowym (tj. Jak Q-learning buduje od siebie szacunki) i aproksymatorami funkcji (np. Sieci neuronowe).
Neil Slater,

7

Przede wszystkim, co właściwie oznacza polityka (oznaczona przez )? Polityka określa działanie , które jest podejmowane w stanie (a ściślej, jest prawdopodobieństwem, że działanie jest podejmowane w stanie ).π
asπas

Po drugie, jakie mamy rodzaje uczenia się?
1. Oceń funkcję : przewiduj sumę przyszłych zdyskontowanych nagród, gdzie jest akcją, a stanem. 2. Znajdź (właściwie ), co daje maksymalną nagrodę.Q(s,a)as
ππ(a|s)

Powrót do pierwotnego pytania. Uczenie się na polityce i poza polityką dotyczy tylko pierwszego zadania: oceny .Q(s,a)

Różnica jest taka:
W na politykę uczenia się funkcja jest dowiedział się od działań, wzięliśmy za pomocą naszej obecnej polityki . W uczeniu się poza polityką funkcja jest uczona z różnych akcji (na przykład akcji losowych). W ogóle nie potrzebujemy żadnej polityki!Q(s,a)π
Q(s,a)

Jest to funkcja aktualizacji algorytmu SARSA zgodnie z polityką : , gdzie to działanie wykonane zgodnie z polityką .Q(s,a)Q(s,a)+α(r+γQ(s,a)Q(s,a))aπ

Porównaj to z funkcją aktualizacji dla algorytmu Q-uczenia się poza polityką : , gdzie to wszystkie akcje, które zostały sondowane w stanie .Q(s,a)Q(s,a)+α(r+γmaxaQ(s,a)Q(s,a))as


1

Z książki Sutton: „Podejście oparte na polityce w poprzedniej części jest w rzeczywistości kompromisem - uczy się wartości działań nie dla optymalnej polityki, ale dla prawie optymalnej polityki, która wciąż bada. Bardziej prostym podejściem jest użycie dwóch polityk , o której się dowiemy i która staje się polityką optymalną, i która jest bardziej eksploracyjna i służy do generowania zachowania. Informacje o polityce są nazywane polityką docelową, a polityka używana do generowania zachowania nazywa się polityką zachowania. W tym przypadku mówimy, że uczenie się odbywa się na podstawie danych „o” polityki docelowej, a cały proces nazywa się uczeniem się polityki. ”


jeśli zastosujesz się do tego opisu, nie jest łatwo powiedzieć, dlaczego Q-learning jest niezgodny z zasadami
Albert Chen
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.