TL; DR.
Fakt, że stopa dyskontowa musi być mniejsza niż 1, jest matematyczną sztuczką pozwalającą na skończenie nieskończonej sumy. Pomaga to udowodnić zbieżność niektórych algorytmów.
W praktyce współczynnik dyskonta można wykorzystać do modelowania faktu, że osoba podejmująca decyzję nie jest pewna, czy w następnej chwili decyzji świat (np. Środowisko / gra / proces ) się skończy.
Na przykład:
Jeśli decydentem jest robot, czynnikiem dyskontowym może być prawdopodobieństwo, że robot zostanie wyłączony w następnej chwili (świat kończy się na poprzedniej terminologii). To jest powód, dla którego robot jest krótkowzroczny i nie optymalizuje nagrody ogólnej, ale nagrodę
zdyskontowaną .
Współczynnik rabatu mniejszy niż 1 (szczegółowo)
Aby precyzyjniej odpowiedzieć, dlaczego stopa dyskontowa musi być mniejsza niż jedna, najpierw przedstawię procesy decyzyjne Markowa (MDP).
Techniki uczenia się przez wzmocnienie mogą być stosowane do rozwiązywania MDP. MDP zapewnia ramy matematyczne do modelowania sytuacji decyzyjnych, w których wyniki są częściowo losowe, a częściowo pod kontrolą decydenta. MDP jest definiowany za pomocą przestrzeni stanów , przestrzeni akcji , funkcji prawdopodobieństwa przejścia między stanami (uwarunkowanej działaniem podejmowanym przez decydenta) oraz funkcji nagrody.SA
W swoim podstawowym ustawieniu podejmujący decyzję podejmuje działania i otrzymuje nagrodę od środowiska, a środowisko zmienia swój stan. Następnie decydent wyczuwa stan środowiska, podejmuje działania, otrzymuje nagrodę i tak dalej. Przejścia stanu są probabilistyczne i zależą wyłącznie od stanu faktycznego i działań podejmowanych przez decydenta. Nagroda uzyskana przez osobę podejmującą decyzję zależy od podjętych działań oraz zarówno od pierwotnego, jak i nowego stanu środowiska.
Nagroda jest uzyskiwana przy podejmowaniu działania w stanie a środowisko / system zmienia się w stan po tym, jak podejmujący decyzję podejmie działanie . Decydent postępuje zgodnie z polityką , że dla każdego stanu podejmuje działanie . Tak więc polityka mówi decydentowi, jakie działania podjąć w każdym stanie. Polityka może być randomizowane jak dobrze, ale to nie ma znaczenia teraz.Rai(sj,sk)aisjskaiπ π(⋅):S→Asj∈Sai∈Aπ
Celem jest znalezienie politycznego taki, żeπ
maxπ:S(n)→ailimT→∞E{∑n=1TβnRxi(S(n),S(n+1))}(1),
gdzie jest współczynnikiem dyskontowym, a .ββ<1
Zauważ, że powyższy problem optymalizacji ma nieskończony horyzont czasowy ( ), a celem jest maksymalizacja sumy nagrody (nagroda jest pomnożona przez ). Zwykle jest to nazywane problemem MDP z kryteriami nagrody z nieskończonym horyzontem .T→∞discountedRβn
Problem nazywa się dyskontem, ponieważ . Gdyby nie był to dyskontowany problem suma nie byłaby zbieżna. Wszystkie polisy, które za każdym razem otrzymują średnio pozytywną nagrodę, sumują się do nieskończoności. Byłoby to kryterium nagrody o nieskończonym horyzoncie i nie jest dobrym kryterium optymalizacji.β<1β=1
Oto zabawkowy przykład pokazujący, co mam na myśli:
Załóżmy, że są tylko dwie możliwe akcje i że funkcja nagrody jest równa jeśli , i jeśli (nagroda nie zależy od stanu).a=0,1R1a=10a=0
Oczywistym jest, że polityka, która otrzymuje więcej nagród, polega na podejmowaniu zawsze akcji i nigdy akcji . Zadzwonię do tej zasady . Porównuję z inną polityką która podejmuje działanie z małym prawdopodobieństwem , a działanie przeciwnym razie.a=1a=0π∗π∗π′a=1α<<1a=0
W nieskończonym horyzoncie zdyskontowane kryteria nagrody równanie (1) staje się (suma szeregu geometrycznego) dla polisy podczas gdy dla polisy równanie (1) staje się . Ponieważ mówimy, że jest lepszą polityką niż . W rzeczywistości jest optymalną polityką.11−βπ∗π′α1−β11−β>α1−βπ∗π′π∗
W nieskończonym horyzoncie kryteria nagrody ( ) równanie (1) nie jest zbieżne dla żadnej z zasad (sumuje się do nieskończoności). Tak więc, podczas gdy zasady osiągają wyższe nagrody niż obie zasady są równe zgodnie z tymi kryteriami. To jeden z powodów, dla których kryteria nagrody nieskończonej sumy horyzontu nie są przydatne.β=1ππ′
Jak wspomniałem wcześniej, sprawia, że sztuczka polega na zbieraniu sumy w równaniu (1).β<1
Inne kryteria optymalizacji
Istnieją inne kryteria optymalizacji, które nie narzucają, że :β<1
Przypadek kryterium skończonego horyzontu, gdy celem jest maksymalizacja zdyskontowanej nagrody do czasu, gdy horyzont czasowyT
maxπ:S(n)→aiE{∑n=1TβnRxi(S(n),S(n+1))},
dla i skończony.β≤1T
W kryteriach średniej nagrody nieskończonego horyzontu celem jest
maxπ:S(n)→ailimT→∞E{∑n=1T1TRxi(S(n),S(n+1))},
Uwaga końcowa
W zależności od kryteriów optymalizacyjnych do znalezienia optymalnej polityki można użyć innego algorytmu. Na przykład optymalna polityka problemów z skończonym horyzontem zależałaby zarówno od stanu, jak i od rzeczywistego momentu. Większość algorytmów uczenia się zbrojenia (takich jak SARSA lub Q-learning) jest zbieżna z optymalną polityką tylko w przypadku kryteriów zdyskontowanych nagród o nieskończonym horyzoncie (to samo dzieje się w przypadku algorytmów programowania dynamicznego). W przypadku kryteriów średniej nagrody nie wykazano, że algorytm jest zbieżny z optymalną polityką, jednak można zastosować R-learning, który ma dobrą wydajność, choć nie jest to dobra zbieżność teoretyczna.