Jak dopasować ciężarki do wartości Q z aproksymacją funkcji liniowej

W uczeniu się zbrojenia aproksymacja funkcji liniowej jest często stosowana, gdy występują duże przestrzenie stanu. (Kiedy tabele wyszukiwania stają się niewykonalne.)

Postać wartości z aproksymacji liniowej funkcji jest przez $Q-$

Q (s, a) = w_{1} f_{1} (s, a) + w_{2} f_{2} (s, a) + \dots,

$Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) + \cdots,$

gdzie są ciężarki i są funkcje. $w_i$ $f_i$

Funkcje są wstępnie zdefiniowane przez użytkownika. Moje pytanie brzmi: w jaki sposób przypisywane są wagi?

Przeczytałem / pobrałem kilka slajdów z wykładów na temat uczenia się z przybliżeniem funkcji. Większość z nich ma kolejne slajdy dotyczące regresji liniowej. Ponieważ są to tylko slajdy, wydają się być niekompletne. Zastanawiam się, jaki jest związek / relacja między tymi dwoma tematami. $Q-$

machine-learning feature-selection reinforcement-learning

— cgo
źródło

Przybliżenie funkcji jest zasadniczo problemem regresyjnym (w ogólnym sensie, tj. W przeciwieństwie do klasyfikacji, w której klasa jest dyskretna), tj. Próbuje się nauczyć mapowania funkcji z danych wejściowych (w twoim przypadku $f(s,a)$ ) na wartość rzeczywistą wyjście $Q(s,a)$ . Ponieważ nie mamy pełnej tabeli wszystkich wartości wejściowych / wyjściowych, ale jednocześnie uczymy się i szacujemy $Q(s,a)$ w tym samym czasie, parametrów (tutaj: wagi $w$ ) nie można obliczyć bezpośrednio z danych. Powszechnym podejściem jest tutaj opadanie gradientu .

Oto ogólny algorytm uczenia się $Q(s,a)$ z aproksymacją funkcji wartości

Inicjalizacja parametr wektor $w=(w_1,w_2,....,w_n)$ losowo (np [0,1])
Dla każdego odcinka:
1. $s\leftarrow$ stan początkowy odcinka
2. $a\leftarrow$ akcja podana przez policy $\pi$ (polecam: $\epsilon$ -greedy)
3. Podejmij akcję $a$ , obserwuj nagrodę $r$ następny stan $s'$
4. $w\leftarrow w+ \alpha(r+\gamma * max_{a'}Q(s',a') - Q(s,a)) \vec\nabla_wQ(s,a)$
5. $s\leftarrow s'$
$s$

gdzie ...

$\alpha\in[0,1]$
$\gamma\in[0,1]$
$max_{a'}Q(s',a')$ $a'$ $s'$ $Q(s',a)$
$\vec\nabla_wQ(s,a)$ $Q(s,a)$ $w$ $(f_1(s,a),...,f_n(s,a))$

Aktualizacja parametrów / wag (4. krok) można odczytać w następujący sposób:

$(r+\gamma * max_a'Q(s',a')) - (Q(s,a))$ $Q(s,a)$ $Q(s,a)$ $r$ $\gamma * max_a'Q(s',a')$
$\vec\nabla_wQ(s,a)$ $\alpha$

Główne źródło:

$Q(s,a)$ $V(s)$ $e$

Więcej referencji

$Q(s,a)$
Krótki przegląd przybliżenia wartości parametrycznej funkcji przez Geist i Pietquin. Wygląda obiecująco, ale jeszcze go nie przeczytałem.

— steffen
źródło

Zepsuty link do Barto i Sutton! Teraz tutaj -> niekompletne.net/book/the-book.html :) i jako ebook niekompletne.net / book

— Book

Czy gradient Q (s, a) w stosunku do wektora kolumny wa, gdzie każdy element jest fi (s, a), nie jest gradientem zamiast sumowania wszystkich fi, jak powiedziałeś? Celem jest, aby każda waga była zmieniana zgodnie z wartością funkcji, do której się mnożą.

— Miguel Saraiva

@MiguelSaraiva Tak, naprawiono. Dziękuję Ci bardzo.

— steffen