Czym dokładnie jest bootstrapping w uczeniu się przez wzmacnianie?


23

Najwyraźniej w uczeniu się przez wzmocnienie metoda różnic czasowych (TD) jest metodą ładowania początkowego. Z drugiej strony metody Monte Carlo nie są metodami ładowania początkowego.

Czym dokładnie jest ładowanie w RL? Co to jest metoda ładowania początkowego w RL?

Odpowiedzi:


22

Bootstrapping w RL można odczytać jako „przy użyciu jednej lub więcej wartości szacunkowych w kroku aktualizacji dla tego samego rodzaju wartości szacunkowej”.

W większości reguł aktualizacji TD zobaczysz coś w rodzaju tej aktualizacji SARSA (0):

Q(s,a)Q(s,a)+α(Rt+1+γQ(s,a)Q(s,a))

Wartość Rt+1+γQ(s,a) jest oszacowaniem dla prawdziwych wartości Q(s,a) , i są również cel TD. Jest to metoda ładowania początkowego, ponieważ częściowo używamy wartości Q do aktualizacji innej wartości Q. Istnieje niewielka ilość obserwowanych danych rzeczywistych w postaci Rt+1 w przejściu stanu, w bezpośrednim nagrody w etapie a także ss .

Porównaj z Monte Carlo, gdzie równoważną zasadą aktualizacji może być:

Q(s,a)Q(s,a)+α(GtQ(s,a))

Gdzie Gt była całkowita zdyskontowana nagroda w czasie t , zakładając, że w tej aktualizacji, że zaczęło się to w stan s , podejmowanie działań a , potem następuje obecną politykę do końca odcinka. Technicznie, Gt=k=0Tt1γkRt+k+1 gdzie Tjest krokiem czasowym dla nagrody i stanu terminala. Warto zauważyć, że ta wartość docelowa w ogóle nie wykorzystuje żadnych szacunków (z innych wartości Q), wykorzystuje jedynie zestaw obserwacji (tj. Nagród) ze środowiska. Jako taki, że zagwarantowane jest nieobciążony oszacowanie prawdziwej wartości Q(s,a) , jak to jest technicznie próbki z Q(s,a) .

Główną wadą ładowania początkowego jest to, że jest on tendencyjny do wartości początkowych Q(s,a) (lub V(s) ). Te są najprawdopodobniej błędne, a system aktualizacji może być niestabilny jako całość z powodu zbyt dużej ilości odnośników i niewystarczającej ilości rzeczywistych danych - jest to problem w przypadku uczenia się poza polityką (np. Q-learning) za pomocą sieci neuronowych.

Bez ładowania początkowego, przy użyciu dłuższych trajektorii, często występuje duża wariancja , co w praktyce oznacza, że ​​potrzebujesz więcej próbek, zanim oszacowania się zbiegną. Tak więc, pomimo problemów z ładowaniem, jeśli można go uruchomić, może uczyć się znacznie szybciej i jest często preferowany w stosunku do podejść Monte Carlo.

Możesz iść na kompromis między metodami opartymi na próbce Monte Carlo i metodami jednoetapowego niszczenia, które ładują się, używając kombinacji wyników z różnych trajektorii długości. Nazywa się to uczeniem TD ( λ ) i istnieje wiele specyficznych metod, takich jak SARSA ( λ ) lub Q ( λ ).


1
To prawdopodobnie powinno być kolejne pytanie. Jednakże, jeśli chcesz odpowiedzieć, dlaczego właściwie jest i szacunek dla Q ( s , ) ? Rt+1+γQ(s,a)Q(s,a)
nbro

1
@nbro: Ponieważ przy zbieżności (te równania i większość RL jest sterowana równaniami Bellmana dla MDP). Patrząc na rzeczywiste zdarzenie, które miało miejsce, poczynając od stanu s i działania aQ(s,a)=E[Rt+1+γQ(St+1,At+1)|St=s,At=a]sa, to zasadniczo próbujesz z tego oczekiwania. Problem polega jednak na tym, że wartość, którą masz dla prawdopodobnie jeszcze się nie zbiegła, więc próbka jest stronnicza. Q(St+1,At+1)
Neil Slater

1
Co uniemożliwia stosowanie metod MC jako wypalania w fazie przed przejściem do ładowania początkowego? Czy może to uznać za pod-przypadek ? λTD
n1k31t4

1
@ n1k31t4: Nic nie stoi na przeszkodzie, a powinno to być prawidłowe podejście RL. Różniłoby się to od TD ( ), ale był motywowany tym samym pomysłem uzyskania dobrych cech z obu algorytmów. Trzeba by spróbować i porównać efektywność uczenia się z TD ( λ ) - nadal musisz dostroić parametr hiper, czyli liczbę odcinków, w których można uruchomić MC. Bardziej ogólną wersją byłoby umożliwienie zmiany λ - zacznij od λ = 1 i zmniejsz ją do np. 0,4 lub dowolnej wartości, która wydaje się najbardziej optymalna. Ma to jednak 2 hiperparametry, szybkość rozpadu i cel dla λλλλλ=10.4λ
Neil Slater

@NeilSlater, czy w przypadku korzystania z ładowania początkowego może się zbiegać? Nie rozumiem, dlaczego tak powinno być, ponieważ Q (s ', a') to tylko arbitralne przypuszczenie, które następnie zniekształca oszacowanie dla Q (s, a). Ponadto, dlaczego MC ma dużą wariancję w porównaniu do TD?
d56

4

Ogólnie, ładowanie w RL oznacza, że ​​aktualizujesz wartość na podstawie niektórych szacunków, a nie na podstawie pewnych dokładnych wartości. Na przykład

Przyrostowe aktualizacje oceny polityki Monte Carlo:

V(St)=V(St)+α(GtV(St))

TD (0) Aktualizacje oceny polityki:

V(St)=V(St)+α(Rt+1+γV(St+1)V(St))

W RT (0), przy czym zwrotny , począwszy od stanu jest szacowana (bootstrapped) przez R t + 1 + y V ( S t + 1 ) , podczas gdy w MC używamy dokładnie zwrotnego G T .sRt+1+γV(St+1) Gt

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.