Masz rację, funkcja V podaje wartość stanu, a Q daje wartość akcji w stanie (zgodnie z daną polityką π ). Najjaśniejsze wyjaśnienie Q-learningu i jego działania znalazłem w książce Toma Mitchella „Machine Learning” (1997), rozdz. 13, który można pobrać. V jest zdefiniowane jako suma szeregu nieskończonego, ale nie ma tutaj znaczenia. Liczy się Q funkcja zdefiniowana jako
Q(s,a)=r(s,a)+γV∗(δ(s,a))
gdzie V * jest najlepszą wartością stanu, gdybyś mógł zastosować optymalną politykę, której nie znasz. Ma jednak ładną charakterystykę pod względemQ
V∗(s)=maxa′Q(s,a′)
ObliczenieQ odbywa się poprzez zastąpienieV∗w pierwszym równaniu daje
Q(s,a)=r(s,a)+γmaxa′Q(δ(s,a),a′)
Na początku może się to wydawać dziwną rekurencją, ponieważ wyraża ona wartość Q akcji w bieżącym stanie w kategoriach najlepszej wartości Q stanu następcy , ale ma sens, gdy spojrzysz na to, jak korzysta z niej proces tworzenia kopii zapasowej: eksploracja proces zatrzymuje się, gdy osiągnie stan celu i odbiera nagrodę, która staje się wartością Q ostatecznego przejścia. Teraz, w kolejnym odcinku szkoleniowym, kiedy proces eksploracji osiągnie ten stan poprzednika, proces tworzenia kopii zapasowej wykorzystuje powyższą równość do aktualizacji bieżącej wartości Q stanu poprzednika. Następnym razem jestpoprzednik odwiedzany jest, że wartość Q stanu jest aktualizowana, i tak dalej z powrotem w linii (książka Mitchella opisuje bardziej wydajny sposób na to, przechowując wszystkie obliczenia i odtwarzając je później). Pod warunkiem, że każdy stan jest odwiedzany nieskończenie często, proces ten ostatecznie oblicza optymalną Q
Czasami zobaczysz szybkość uczenia α zastosowaną do kontrolowania, ile Q faktycznie jest aktualizowane:
Q(s,a)=(1−α)Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′))
=Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′)−Q(s,a))
Wskazówki się, że zmiana wartości Qniezależy od bieżącej wartości q. Książka Mitchella wyjaśnia również, dlaczego tak jest i dlaczego potrzebujeszα : jej do stochastycznych MDP. Bezα każdym razem, gdy podejmowana jest próba stanu, para akcji byłaby inna nagroda, więc funkcja Q ^ odbijałaby się po całym miejscu i nie zbiegała się. αjest tak, że ponieważ nowa wiedza jest akceptowana tylko częściowo. Początkowo α jest ustawione na wysoką wartość, tak że prąd (głównie wartości losowe) Q są mniej wpływowe. α maleje wraz z postępem treningu, dzięki czemu nowe aktualizacje mają coraz mniejszy wpływ, a teraz nauka Q jest zbieżna