Co to jest funkcja Q i jaka jest funkcja V w uczeniu się przez wzmocnienie?

30

Wydaje mi się, że funkcja $V$ może być łatwo wyrażona przez funkcję $Q$ a zatem funkcja $V$ wydaje mi się zbędna. Jednak jestem nowy w uczeniu się przez wzmacnianie, więc chyba coś poszło nie tak.

Definicje

Q- i V-learning są w kontekście procesów decyzyjnych Markowa . MDP jest 5-krotny $(S, A, P, R, \gamma)$ z

$S$ jest zbiorem stanów (zazwyczaj skończonych)
$A$ jest zbiorem działań (zazwyczaj skończonych)
$P(s, s', a) = P(s_{t+1} = s' | s_t = s, a_t = a)$ to prawdopodobieństwo przejścia ze stanu $s$ do stanu $s'$ z działaniem $a$ .
$R(s, s', a) \in \mathbb{R}$ jest natychmiastową nagrodą po przejściu ze stanu $s$ do stanu $s'$ z działaniem $a$ . (Wydaje mi się, że zwykle tylko $s'$ spraw).
$\gamma \in [0, 1]$ nazywa się współczynnikiem dyskontowym i określa, czy należy skupić się na natychmiastowych nagrodach ( $\gamma = 0$ ), łącznej kwocie ( $\gamma = 1$ ), czy na pewnej wymianie.

Polityka $\pi$ , według Reinforcement Learning: Wprowadzenie przez Sutton i Barto jest funkcja $\pi: S \rightarrow A$ (może to być probabilistyczny).

Według preparatów Mario Martins The $V$ funkcja jest

V^{π} (s) = E_{π} {R_{t} | s_{t} = s} = E_{π} {\sum_{k = 0}^{\infty} γ^{k} r_{t + k + 1} | s_{t} = s}

$V^\pi(s) = E_\pi \{R_t | s_t = s\} = E_\pi \{\sum_{k=0}^\infty \gamma^k r_{t+k+1} | s_t = s\}$ a funkcją

jest

Q^{π} (s, a) = E_{π} {R_{t} | s_{t} = s, a_{t} = a} = E_{π} {\sum_{k = 0}^{\infty} γ^{k} r_{t + k + 1} | s_{t} = s, a_{t} = a}

$Q^\pi(s, a) = E_\pi \{R_t | s_t = s, a_t = a\} = E_\pi \{\sum_{k=0}^\infty \gamma^k r_{t+k+1} | s_t = s, a_t=a\}$

Moje myśli

Funkcja $V$ określa, jaka jest oczekiwana ogólna wartość (nie nagroda!) Stanu $s$ zgodnie z polityką $\pi$ .

Funkcja określa, jaka jest wartość stanu i akcji zgodnie z polityką . $Q$ $s$ $a$ $\pi$

Oznacza to, że

Q^{π} (s, π (s)) = V^{π} (s)

$Q^\pi(s, \pi(s)) = V^\pi(s)$

Dobrze? Dlaczego więc w ogóle mamy funkcję wartości? (Chyba coś pomieszałem)

machine-learning reinforcement-learning

— Martin Thoma
źródło

15

Wartości Q to świetny sposób na wyraźne działanie akcji, dzięki czemu można poradzić sobie z problemami, w których funkcja przejścia nie jest dostępna (bez modelu). Jednak gdy twoja przestrzeń akcji jest duża, rzeczy nie są tak ładne, a wartości Q nie są tak wygodne. Pomyśl o ogromnej liczbie akcji, a nawet ciągłych przestrzeni akcji.

Z perspektywy próbkowania wymiarowość $Q(s, a)$ jest wyższa niż $V(s)$ więc może być trudniej uzyskać wystarczającą ilość próbek $(s, a)$ w porównaniu z $(s)$ . Jeśli masz dostęp do funkcji przejścia, czasami $V$ jest dobre.

Istnieją również inne zastosowania, w których oba są połączone. Na przykład funkcja korzyści, gdzie $A(s, a) = Q(s, a) - V(s)$ . Jeśli jesteś zainteresowany, możesz znaleźć najnowszy przykład, używając funkcji przewagi tutaj:

Architektury sieci pojedynków do nauki głębokiego wzmacniania

autorzy: Ziyu Wang, Tom Schaul, Matteo Hessel, Hado van Hasselt, Marc Lanctot i Nando de Freitas.

— Juan Leni
źródło

19

$V^\pi(s)$ jest funkcją stanu-wartości MDP (proces decyzyjny Markowa). Jest to oczekiwany zwrot począwszy od pa $s$ Poniższe zasady $\pi$ .

W wyrażeniu

V^{π} (s) = E_{π} {G_{t} | s_{t} = s}

$V^\pi(s) = E_\pi \{G_t | s_t = s\}$

$G_t$ jest całkowitą ZNIŻKOWĄ nagrodą od kroku czasu $t$ , w przeciwieństwie do $R_t$ który jest natychmiastowym zwrotem. Oczekujesz WSZYSTKICH działań zgodnie z polityką $\pi$ .

$Q^\pi(s, a)$ to funkcja akcja-wartość. Jest to oczekiwany zwrot od stanu $s$ , zgodnie z polityką $\pi$ , podejmując działanie $a$ . Koncentruje się na konkretnej akcji w danym stanie.

Q^{π} (s, a) = E_{π} {G_{t} | s_{t} = s, a_{t} = a}

$Q^\pi(s, a) = E_\pi \{G_t | s_t = s, a_t = a\}$

Zależność między $Q^\pi$ i $V^\pi$ (wartością bycia w tym stanie) jest

V^{π} (s) = \sum_{a \in A} π (a | s) * Q^{π} (a, s)

$V^\pi(s) = \sum_{a ∈ A} \pi (a|s) * Q^\pi(a,s)$

Każdą wartość akcji sumuje się pomnożoną przez prawdopodobieństwo wykonania tej akcji (zasady $\pi(a|s)$ ).

Jeśli myślisz o przykładzie siatki, pomnóż prawdopodobieństwo (góra / dół / prawo / lewo) przez wartość stanu o jeden krok do przodu (góra / dół / prawo / lewo).

— Aaron
źródło

5

To jest najbardziej zwięzła odpowiedź.

— Brett,

Mam źródło, które stwierdza, że

. Jak odnosisz to równanie do tego, które podajesz w swojej odpowiedzi,

? W swoim równaniu definiujesz

jako ważoną sumę

V^{π} (s) = max_{a \in A} Q^{π} (s, a)

$V^\pi(s) = \max_{a \in A} Q^\pi(s, a)$

V^{π} (s) = \sum_{a \in A} π (a ∣ s) * Q^{π} (a, s)

$V^\pi(s) = \sum_{a \in A} \pi (a \mid s) * Q^\pi(a, s)$

V

$V$

Q

$Q$ wartościRóżni się to od mojej definicji, która definiuje

jako najwyższa

.

V

$V$

Q

$Q$

— nbro

@nbro Uważam, że zależy to od tego, jakie zasady przestrzegasz. W czystej chciwej polityce masz rację. Ale jeśli byłaby to polityka bardziej eksploracyjna, zbudowana tak, aby stochastycznie decydować o akcji, to powyższe byłoby prawidłowe

— deltaskelta

7

Masz rację, funkcja $V$ podaje wartość stanu, a $Q$ daje wartość akcji w stanie (zgodnie z daną polityką $\pi$ ). Najjaśniejsze wyjaśnienie Q-learningu i jego działania znalazłem w książce Toma Mitchella „Machine Learning” (1997), rozdz. 13, który można pobrać. $V$ jest zdefiniowane jako suma szeregu nieskończonego, ale nie ma tutaj znaczenia. Liczy się $Q$ funkcja zdefiniowana jako

Q (s, a) = r (s, a) + γ V^{*} (δ (s, a))

$Q(s,a ) = r(s,a ) + \gamma V^{*}(\delta(s,a))$ gdzie V * jest najlepszą wartością stanu, gdybyś mógł zastosować optymalną politykę, której nie znasz. Ma jednak ładną charakterystykę pod względem

Q

$Q$

V^{*} (s) = max_{a^{'}} Q (s, a^{'})

$V^{*}(s)= \max_{a'} Q(s,a')$ Obliczenie

Q

$Q$ odbywa się poprzez zastąpienie

V^{*}

$V^*$ w pierwszym równaniu daje

Q (s, a) = r (s, a) + γ max_{a^{'}} Q (δ (s, a), a^{'})

$Q(s, a) = r(s, a) + \gamma \max_{a'} Q(\delta(s, a), a')$

Na początku może się to wydawać dziwną rekurencją, ponieważ wyraża ona wartość Q akcji w bieżącym stanie w kategoriach najlepszej wartości Q stanu następcy , ale ma sens, gdy spojrzysz na to, jak korzysta z niej proces tworzenia kopii zapasowej: eksploracja proces zatrzymuje się, gdy osiągnie stan celu i odbiera nagrodę, która staje się wartością Q ostatecznego przejścia. Teraz, w kolejnym odcinku szkoleniowym, kiedy proces eksploracji osiągnie ten stan poprzednika, proces tworzenia kopii zapasowej wykorzystuje powyższą równość do aktualizacji bieżącej wartości Q stanu poprzednika. Następnym razem jestpoprzednik odwiedzany jest, że wartość Q stanu jest aktualizowana, i tak dalej z powrotem w linii (książka Mitchella opisuje bardziej wydajny sposób na to, przechowując wszystkie obliczenia i odtwarzając je później). Pod warunkiem, że każdy stan jest odwiedzany nieskończenie często, proces ten ostatecznie oblicza optymalną Q

Czasami zobaczysz szybkość uczenia $\alpha$ zastosowaną do kontrolowania, ile Q faktycznie jest aktualizowane:

Q (s, a) = (1 - α) Q (s, a) + α (r (s, a) + γ max_{a^{'}} Q (s^{'}, a^{'}))

$Q(s, a) = (1-\alpha)Q(s, a) + \alpha(r(s, a) + \gamma \max_{a'} Q(s',a'))$

= Q (s, a) + α (r (s, a) + γ max_{a^{'}} Q (s^{'}, a^{'}) - Q (s, a))

$= Q(s, a) + \alpha(r(s, a) + \gamma \max_{a'} Q(s',a') - Q(s,a))$ Wskazówki się, że zmiana wartości Qniezależy od bieżącej wartości q. Książka Mitchella wyjaśnia również, dlaczego tak jest i dlaczego potrzebujesz

α

$\alpha$ : jej do stochastycznych MDP. Bez

α

$\alpha$ każdym razem, gdy podejmowana jest próba stanu, para akcji byłaby inna nagroda, więc funkcja Q ^ odbijałaby się po całym miejscu i nie zbiegała się.

α

$\alpha$ jest tak, że ponieważ nowa wiedza jest akceptowana tylko częściowo. Początkowo

α

$\alpha$ jest ustawione na wysoką wartość, tak że prąd (głównie wartości losowe) Q są mniej wpływowe.

α

$\alpha$ maleje wraz z postępem treningu, dzięki czemu nowe aktualizacje mają coraz mniejszy wpływ, a teraz nauka Q jest zbieżna

— SN
źródło

0

Oto bardziej szczegółowe wyjaśnienie związku między wartością stanu a wartością akcji w odpowiedzi Aarona. Najpierw spójrzmy na definicje funkcji wartości i funkcji wartości akcji w strategii $\pi$ :

\begin{aligned} v_{π} (s) = E [G_{t} | S_{t} = s] \\ q_{π} (s, a) = E [G_{t} | S_{t} = s, A_{t} = a] \end{aligned}

$\begin{align} &v_{\pi}(s)=E{\left[G_t|S_t=s\right]} \\ &q_{\pi}(s,a)=E{\left[G_t|S_t=s, A_t=a\right]} \end{align}$

G_{t} = \sum_{k = 0}^{\infty} γ^{k} R_{t + k + 1}

$G_t=\sum_{k=0}^{\infty}\gamma^kR_{t+k+1}$

t

$t$

\begin{aligned} v_{π} (s) & = E [G_{t} | S_{t} = s] \\ = \sum_{g_{t}} p (g_{t} | S_{t} = s) g_{t} \\ = \sum_{g_{t}} \sum_{a} p (g_{t}, a | S_{t} = s) g_{t} \\ = \sum_{a} p (a | S_{t} = s) \sum_{g_{t}} p (g_{t} | S_{t} = s, A_{t} = a) g_{t} \\ = \sum_{a} p (a | S_{t} = s) E [G_{t} | S_{t} = s, A_{t} = a] \\ = \sum_{a} p (a | S_{t} = s) q_{π} (s, a) \end{aligned}

$\begin{align} v_{\pi}(s)&=E{\left[G_t|S_t=s\right]} \nonumber \\ &=\sum_{g_t} p(g_t|S_t=s)g_t \nonumber \\ &= \sum_{g_t}\sum_{a}p(g_t, a|S_t=s)g_t \nonumber \\ &= \sum_{a}p(a|S_t=s)\sum_{g_t}p(g_t|S_t=s, A_t=a)g_t \nonumber \\ &= \sum_{a}p(a|S_t=s)E{\left[G_t|S_t=s, A_t=a\right]} \nonumber \\ &= \sum_{a}p(a|S_t=s)q_{\pi}(s,a) \end{align}$

v_{π} (s) = q_{π} (s, π (s))

$v_{\pi}(s)=q_{\pi}(s,\pi(s))$ https://stats.stackexchange.com/questions/347268/proof-of-bellman-optimality-equation/370198#370198 )

— Jie Shi
źródło

0

Funkcja wartości jest abstrakcyjnym sformułowaniem użyteczności. Funkcja Q jest wykorzystywana w algorytmie Q-learningu.

— Emanuel
źródło

V

$V$

Q

$Q$