Czym dokładnie jest bootstrapping w uczeniu się przez wzmacnianie?

Najwyraźniej w uczeniu się przez wzmocnienie metoda różnic czasowych (TD) jest metodą ładowania początkowego. Z drugiej strony metody Monte Carlo nie są metodami ładowania początkowego.

Czym dokładnie jest ładowanie w RL? Co to jest metoda ładowania początkowego w RL?

reinforcement-learning

— nbro
źródło

Bootstrapping w RL można odczytać jako „przy użyciu jednej lub więcej wartości szacunkowych w kroku aktualizacji dla tego samego rodzaju wartości szacunkowej”.

W większości reguł aktualizacji TD zobaczysz coś w rodzaju tej aktualizacji SARSA (0):

Q (s, a) \leftarrow Q (s, a) + α (R_{t + 1} + γ Q (s^{'}, a^{'}) - Q (s, a))

$Q(s,a) \leftarrow Q(s,a) + \alpha(R_{t+1} + \gamma Q(s',a') - Q(s,a))$

Wartość $R_{t+1} + \gamma Q(s',a')$ jest oszacowaniem dla prawdziwych wartości $Q(s,a)$ , i są również cel TD. Jest to metoda ładowania początkowego, ponieważ częściowo używamy wartości Q do aktualizacji innej wartości Q. Istnieje niewielka ilość obserwowanych danych rzeczywistych w postaci $R_{t+1}$ w przejściu stanu, w bezpośrednim nagrody w etapie a także $s \rightarrow s'$ .

Porównaj z Monte Carlo, gdzie równoważną zasadą aktualizacji może być:

Q (s, a) \leftarrow Q (s, a) + α (G_{t} - Q (s, a))

$Q(s,a) \leftarrow Q(s,a) + \alpha(G_{t} - Q(s,a))$

Gdzie $G_{t}$ była całkowita zdyskontowana nagroda w czasie $t$ , zakładając, że w tej aktualizacji, że zaczęło się to w stan $s$ , podejmowanie działań $a$ , potem następuje obecną politykę do końca odcinka. Technicznie, $G_t = \sum_{k=0}^{T-t-1} \gamma^k R_{t+k+1}$ gdzie $T$ jest krokiem czasowym dla nagrody i stanu terminala. Warto zauważyć, że ta wartość docelowa w ogóle nie wykorzystuje żadnych szacunków (z innych wartości Q), wykorzystuje jedynie zestaw obserwacji (tj. Nagród) ze środowiska. Jako taki, że zagwarantowane jest nieobciążony oszacowanie prawdziwej wartości $Q(s,a)$ , jak to jest technicznie próbki z $Q(s,a)$ .

Główną wadą ładowania początkowego jest to, że jest on tendencyjny do wartości początkowych $Q(s',a')$ (lub $V(s')$ ). Te są najprawdopodobniej błędne, a system aktualizacji może być niestabilny jako całość z powodu zbyt dużej ilości odnośników i niewystarczającej ilości rzeczywistych danych - jest to problem w przypadku uczenia się poza polityką (np. Q-learning) za pomocą sieci neuronowych.

Bez ładowania początkowego, przy użyciu dłuższych trajektorii, często występuje duża wariancja , co w praktyce oznacza, że potrzebujesz więcej próbek, zanim oszacowania się zbiegną. Tak więc, pomimo problemów z ładowaniem, jeśli można go uruchomić, może uczyć się znacznie szybciej i jest często preferowany w stosunku do podejść Monte Carlo.

Możesz iść na kompromis między metodami opartymi na próbce Monte Carlo i metodami jednoetapowego niszczenia, które ładują się, używając kombinacji wyników z różnych trajektorii długości. Nazywa się to uczeniem TD ( $\lambda$ ) i istnieje wiele specyficznych metod, takich jak SARSA ( $\lambda$ ) lub Q ( $\lambda$ ).

— Neil Slater
źródło

To prawdopodobnie powinno być kolejne pytanie. Jednakże, jeśli chcesz odpowiedzieć, dlaczego właściwie jest

i szacunek dla

R_{t + 1} + γ Q (s^{'}, a^{'})

$R_{t+1} + \gamma Q(s',a')$

Q (s, a)

$Q(s, a)$

— nbro

@nbro: Ponieważ przy zbieżności

(te równania i większość RL jest sterowana równaniami Bellmana dla MDP). Patrząc na rzeczywiste zdarzenie, które miało miejsce, poczynając od stanu

i działania

Q (s, a) = E [R_{t + 1} + γ Q (S_{t + 1}, A_{t + 1}) | S_{t} = s, A_{t} = a]

$Q(s,a) = \mathbb{E}[R_{t+1} + \gamma Q(S_{t+1},A_{t+1}) | S_t = s, A_t =a]$

s

$s$

a

$a$ , to zasadniczo próbujesz z tego oczekiwania. Problem polega jednak na tym, że wartość, którą masz dla

prawdopodobnie jeszcze się nie zbiegła, więc próbka jest stronnicza.

Q (S_{t + 1}, A_{t + 1})

$Q(S_{t+1},A_{t+1})$

— Neil Slater

Co uniemożliwia stosowanie metod MC jako wypalania w fazie przed przejściem do ładowania początkowego? Czy może to uznać za pod-przypadek

λ - T D

$\lambda-TD$

— n1k31t4

@ n1k31t4: Nic nie stoi na przeszkodzie, a powinno to być prawidłowe podejście RL. Różniłoby się to od TD (

), ale był motywowany tym samym pomysłem uzyskania dobrych cech z obu algorytmów. Trzeba by spróbować i porównać efektywność uczenia się z TD (

) - nadal musisz dostroić parametr hiper, czyli liczbę odcinków, w których można uruchomić MC. Bardziej ogólną wersją byłoby umożliwienie zmiany

- zacznij od

i zmniejsz ją do np.

lub dowolnej wartości, która wydaje się najbardziej optymalna. Ma to jednak 2 hiperparametry, szybkość rozpadu i cel dla

λ

$\lambda$

λ

$\lambda$

λ

$\lambda$

λ = 1

$\lambda = 1$

0.4

$0.4$

λ

$\lambda$

— Neil Slater

@NeilSlater, czy w przypadku korzystania z ładowania początkowego może się zbiegać? Nie rozumiem, dlaczego tak powinno być, ponieważ Q (s ', a') to tylko arbitralne przypuszczenie, które następnie zniekształca oszacowanie dla Q (s, a). Ponadto, dlaczego MC ma dużą wariancję w porównaniu do TD?

— d56

Ogólnie, ładowanie w RL oznacza, że aktualizujesz wartość na podstawie niektórych szacunków, a nie na podstawie pewnych dokładnych wartości. Na przykład

Przyrostowe aktualizacje oceny polityki Monte Carlo:

$V(S_t) = V(S_t) + \alpha(G_t - V(S_t))$

TD (0) Aktualizacje oceny polityki:

$V(S_t) = V(S_t) + \alpha(R_{t+1} + \gamma V(S_{t+1}) - V(S_t))$

W RT (0), przy czym zwrotny , począwszy od stanu jest szacowana (bootstrapped) przez , podczas gdy w MC używamy dokładnie zwrotnego . $s$ $R_{t+1} + \gamma V(S_{t+1})$ $G_t$

— plopd
źródło