Znaczenie współczynnika rabatu w uczeniu się przez wzmocnienie


10

Po przeczytaniu osiągnięć Google Deepmind w grach Atari , próbuję zrozumieć q-learning i q-sieci, ale jestem trochę zdezorientowany. Zamieszanie powstaje w koncepcji współczynnika dyskontowego. Krótkie streszczenie tego, co rozumiem. Głęboka splotowa sieć neuronowa służy do oszacowania wartości optymalnej oczekiwanej wartości działania. Sieć musi zminimalizować funkcję utraty gdzie to Gdzie Q jest skumulowaną wartością wyniku r

Li=Es,a,r[(Es[y|s,a]Q(s,a;θi))2]
Es[y|s,a]Q r
E[r+γmaxaQ(s,a;θi)|s,a]
Qrjest wartością punktową dla wybranej akcji. s,a i s,a oznaczają odpowiednio stan i działanie wybrane w czasie t oraz stan i działanie w czasie t . θi są obciążniki sieci w poprzedniej iteracji. γ jest czynnikiem zniżka które uwzględniają czasową różnicę wartości punktowej. i indeks jest krok czasowy. Problem polega na tym, aby zrozumieć, dlaczego γ nie zależy od θ .

Z matematycznego punktu widzenia jest współczynnikiem dyskonta i reprezentuje prawdopodobieństwo, aby osiągnąć stan ze stanu .s sγss

Wydaje mi się, że sieć faktycznie uczy się przeskalowywać zgodnie z prawdziwą wartością , więc dlaczego nie pozwolić ?γ γ = 1Qγγ=1

Odpowiedzi:


6

Współczynnik dyskontowy nie reprezentuje prawdopodobieństwa osiągnięcia stanu ze stanu . To byłoby , które nie jest używane w Q-Learning, ponieważ jest ono wolne od modelu (tylko metody uczenia wzmacniającego oparte na modelu wykorzystują te prawdopodobieństwa przejścia). Współczynnik dyskontowy to hiperparametr dostrojony przez użytkownika, który reprezentuje, o ile przyszłe zdarzenia tracą swoją wartość w zależności od tego, jak daleko są w czasie. W przywołanej formule mówisz, że wartość dla twojego obecnego stanu jest natychmiastową nagrodą za ten stan plus to, czego oczekujesz w przyszłości, zaczynając odssp(s|s,a)γyssγ < 1. Ale ten przyszły termin musi zostać zdyskontowany, ponieważ przyszłe nagrody mogą nie (jeśli ) mieć taką samą wartość jak otrzymywanie nagrody w tej chwili (tak jak wolimy otrzymywać teraz 100 $ zamiast 100 $ jutro). Od Ciebie zależy, czy chcesz stracić przyszłe nagrody (zależy to od problemu). Współczynnik rabatu równy 0 oznacza, że ​​zależy ci tylko na natychmiastowych nagrodach. Im wyższy współczynnik rabatu, tym dalej nagrody będą się rozprzestrzeniać w czasie.γ<1

Sugeruję przeczytanie książki Sutton i Barto przed wypróbowaniem Deep-Q, aby nauczyć się czystej nauki o wzmocnieniu poza kontekstem sieci neuronowych, co może być mylące.


Dziękuję za odpowiedź, ale wciąż mam wątpliwości. Myślę głośno. Wyobraź sobie, że na każdym kroku otrzymujesz ocenę i musisz zapłacić aby rozpocząć grę. Jak obliczyć oczekiwaną wartość? Cóż ponieważ dodajesz wartości w różnych momentach w przyszłości, prawda? c E v = + i = 1 γ i d - c dddo
miv=ja=1+γjare-do
re
emanuele

Cóż, popsuję się, nawet jeśli jaka jest poprawna wartość dla ? Prawidłowa wartość to wartość, która pozwala mi na kompromis między nagrodą obecną a nagrodą futures i jest . to prawdopodobieństwo przeżycia na etapie i dlatego . Czek to gdzie jest szansą na przetrwanie na każdym kroku i jest oczekiwaną długością życia.
reγ1-γ=do
γsolzammzaγ=ppt0γ1p1p=ττ
emanuele
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.