W robotyce technika uczenia się zbrojenia służy do znalezienia wzoru sterowania dla robota. Niestety, większość metod gradientu polityki jest statystycznie tendencyjna, co może doprowadzić robota do niebezpiecznej sytuacji, patrz strona 2 w Jan Peters i Stefan Schaal: Wzmocnienie uczenia się umiejętności motorycznych za pomocą gradientów polityki, 2008
Dzięki prymitywnemu uczeniu się silnika możliwe jest rozwiązanie problemu, ponieważ optymalizacja parametrów gradientu polityki kieruje etapy uczenia się do celu.
cytat: „Jeśli oszacowanie gradientu jest obiektywne, a wskaźniki uczenia się spełniają sumę (a) = 0, proces uczenia się gwarantuje osiągnięcie co najmniej lokalnego minimum [...] Dlatego musimy oszacować gradient polityki tylko na podstawie wygenerowanych danych podczas wykonywania zadania. ”(Strona 4 tego samego papieru)
W zadaniu domowym dla klasy 1 Berkeley RL prosi się o pokazanie, że gradient strategii jest nadal bezstronny, jeśli odjęta linia podstawowa jest funkcją stanu w czasie t.
Walczę, jaki może być pierwszy krok takiego dowodu. Czy ktoś może skierować mnie we właściwym kierunku? Moją początkową myślą było jakoś wykorzystanie prawa całkowitego oczekiwania, aby uzależnić oczekiwanie b (st) od T, ale nie jestem pewien. Z góry dziękuję :)