Pytania otagowane jako reinforcement-learning

W przypadku pytań związanych z uczeniem się kontrolowanym przez zewnętrzne pozytywne wzmocnienie lub negatywny sygnał sprzężenia zwrotnego lub oba te czynniki, w przypadku których uczenie się i korzystanie z tego, czego się dotąd nauczyliśmy, odbywa się jednocześnie.


1
Jaki jest związek między Q-learningiem a metodami gradientów polityki?
O ile rozumiem, Q-learning i gradienty polityki (PG) to dwa główne podejścia stosowane do rozwiązywania problemów RL. Podczas gdy Q-learning ma na celu przewidzenie nagrody za pewne działanie podjęte w określonym stanie, gradienty polityki bezpośrednio przewidują samo działanie. Jednak oba podejścia wydają mi się identyczne, tj. Przewidywanie maksymalnej nagrody za …

4
Jak radzić sobie z nieprawidłowymi ruchami w uczeniu się zbrojenia?
Chcę stworzyć sztuczną inteligencję, która może grać w pięć w jednym rzędzie / gomoku. Jak wspomniałem w tytule, chcę do tego wykorzystać naukę wzmacniającą. Używam metody gradientu zasad , a mianowicie REINFORCE, z linią bazową. Do przybliżenia wartości i funkcji polityki używam sieci neuronowej . Ma splotowe i w pełni …

2
Jak zdefiniować stany w uczeniu się przez wzmocnienie?
Studiuję naukę wzmacniającą i jej warianty. Zaczynam rozumieć, jak działają algorytmy i jak mają one zastosowanie do MDP. To, czego nie rozumiem, to proces definiowania stanów MDP. W większości przykładów i samouczków reprezentują one coś prostego, jak kwadrat w siatce lub podobny. W przypadku bardziej skomplikowanych problemów, takich jak robot …




1
Dlaczego nie widzisz warstw rezygnacji na przykładach uczenia się zbrojenia?
Patrzyłem na naukę wzmacniania, a konkretnie bawiłem się, tworząc własne środowiska do użycia z SI OpenAI Gym. Korzystam z agentów z projektu stable_baselines do testowania go. Jedną z rzeczy, które zauważyłem w praktycznie wszystkich przykładach RL, jest to, że nigdy nie wydaje się, aby w żadnej sieci istniały warstwy usuwające. …

1
Kiedy powinienem używać Reinforcement Learning vs PID Control?
Projektując rozwiązania problemów, takich jak Lunar Lander na OpenAIGym , Reinforcement Learning to kuszący sposób na zapewnienie agentowi odpowiedniej kontroli działania, tak aby z powodzeniem wylądować. Ale w jakich przypadkach algorytmy systemu sterowania, takie jak sterowniki PID , wykonałyby tylko odpowiednie zadanie, jeśli nie lepsze niż Reinforcement Learning? Pytania takie …

1
Dlaczego DQN wymaga dwóch różnych sieci?
Przechodziłem przez tę implementację DQN i widzę, że na linii 124 i 125 zainicjowano dwie różne sieci Q. Z mojego zrozumienia, myślę, że jedna sieć przewiduje odpowiednie działanie, a druga sieć przewiduje docelowe wartości Q dla znalezienia błędu Bellmana. Dlaczego nie możemy stworzyć jednej sieci, która po prostu przewiduje wartość …

2
Dlaczego Q-learning nie jest zbieżny podczas korzystania z aproksymacji funkcji?
Tabelaryczny algorytm uczenia Q gwarantuje znalezienie optymalnego QQQ funkcjonować, Q∗Q∗Q^*, pod warunkiem spełnienia następujących warunków (warunki Robbins-Monro ) dotyczących wskaźnika uczenia się ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)&lt;∞∑tαt2(s,a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty gdzie αt(s,a)αt(s,a)\alpha_t(s, a) oznacza współczynnik uczenia się używany podczas aktualizacji QQQ wartość związana ze stanem sss i akcja …

3
Dlaczego stopa dyskontowa w algorytmie REINFORCE pojawia się dwukrotnie?
Czytałem książkę Reinforcement Learning: An Introduction autorstwa Richarda S. Sutton i Andrew G. Barto (kompletny szkic, 5 listopada 2017 r.). Na stronie 271 przedstawiono pseudo-kod dla epizodycznej metody Monte-Carlo z zastosowaniem gradientowej polityki. Patrząc na ten pseudo-kod, nie rozumiem, dlaczego wydaje się, że stopa dyskontowa pojawia się 2 razy, raz …


1
Jak zastosować gradienty polityki w przypadku wielu ciągłych działań?
Trusted Region Policy Optimization (TRPO) i Proximal Policy Optimization (PPO) to dwa najnowocześniejsze algorytmy gradientowe. Podczas korzystania z pojedynczego działania ciągłego normalnie użyłbyś pewnego rozkładu prawdopodobieństwa (na przykład Gaussa) dla funkcji straty. Wersja przybliżona to: L ( θ ) = log( P(za1) ) A ,L.(θ)=log⁡(P.(za1))ZA,L(\theta) = \log(P(a_1)) A, gdzie ZAZAA …

3
Czy optymalna polityka jest zawsze stochastyczna, jeśli środowisko jest również stochastyczne?
Czy optymalna polityka jest zawsze stochastyczna (tj. Mapa stanów do rozkładu prawdopodobieństwa na działania), jeśli środowisko jest również stochastyczne? Intuicyjnie, jeśli środowisko jest deterministyczne (to znaczy, jeśli agent jest w staniesssi podejmuje działanie , wtedy następny stan jest zawsze taki sam, bez względu na krok czasowy, wtedy optymalna polityka powinna …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.