Odpowiedzi:
Bootstrapping w RL można odczytać jako „przy użyciu jednej lub więcej wartości szacunkowych w kroku aktualizacji dla tego samego rodzaju wartości szacunkowej”.
W większości reguł aktualizacji TD zobaczysz coś w rodzaju tej aktualizacji SARSA (0):
Wartość jest oszacowaniem dla prawdziwych wartości , i są również cel TD. Jest to metoda ładowania początkowego, ponieważ częściowo używamy wartości Q do aktualizacji innej wartości Q. Istnieje niewielka ilość obserwowanych danych rzeczywistych w postaci w przejściu stanu, w bezpośrednim nagrody w etapie a także .
Porównaj z Monte Carlo, gdzie równoważną zasadą aktualizacji może być:
Gdzie była całkowita zdyskontowana nagroda w czasie , zakładając, że w tej aktualizacji, że zaczęło się to w stan , podejmowanie działań , potem następuje obecną politykę do końca odcinka. Technicznie, gdzie jest krokiem czasowym dla nagrody i stanu terminala. Warto zauważyć, że ta wartość docelowa w ogóle nie wykorzystuje żadnych szacunków (z innych wartości Q), wykorzystuje jedynie zestaw obserwacji (tj. Nagród) ze środowiska. Jako taki, że zagwarantowane jest nieobciążony oszacowanie prawdziwej wartości , jak to jest technicznie próbki z .
Główną wadą ładowania początkowego jest to, że jest on tendencyjny do wartości początkowych (lub ). Te są najprawdopodobniej błędne, a system aktualizacji może być niestabilny jako całość z powodu zbyt dużej ilości odnośników i niewystarczającej ilości rzeczywistych danych - jest to problem w przypadku uczenia się poza polityką (np. Q-learning) za pomocą sieci neuronowych.
Bez ładowania początkowego, przy użyciu dłuższych trajektorii, często występuje duża wariancja , co w praktyce oznacza, że potrzebujesz więcej próbek, zanim oszacowania się zbiegną. Tak więc, pomimo problemów z ładowaniem, jeśli można go uruchomić, może uczyć się znacznie szybciej i jest często preferowany w stosunku do podejść Monte Carlo.
Możesz iść na kompromis między metodami opartymi na próbce Monte Carlo i metodami jednoetapowego niszczenia, które ładują się, używając kombinacji wyników z różnych trajektorii długości. Nazywa się to uczeniem TD ( ) i istnieje wiele specyficznych metod, takich jak SARSA ( ) lub Q ( ).
Ogólnie, ładowanie w RL oznacza, że aktualizujesz wartość na podstawie niektórych szacunków, a nie na podstawie pewnych dokładnych wartości. Na przykład
Przyrostowe aktualizacje oceny polityki Monte Carlo:
TD (0) Aktualizacje oceny polityki:
W RT (0), przy czym zwrotny , począwszy od stanu jest szacowana (bootstrapped) przez R t + 1 + y V ( S t + 1 ) , podczas gdy w MC używamy dokładnie zwrotnego G T .