Pytania otagowane jako reinforcement-learning

W przypadku pytań związanych z uczeniem się kontrolowanym przez zewnętrzne pozytywne wzmocnienie lub negatywny sygnał sprzężenia zwrotnego lub oba te czynniki, w przypadku których uczenie się i korzystanie z tego, czego się dotąd nauczyliśmy, odbywa się jednocześnie.

2
Dlaczego poziom bazowy zależy od stanu w pewnym momencie bezstronnym?
W robotyce technika uczenia się zbrojenia służy do znalezienia wzoru sterowania dla robota. Niestety, większość metod gradientu polityki jest statystycznie tendencyjna, co może doprowadzić robota do niebezpiecznej sytuacji, patrz strona 2 w Jan Peters i Stefan Schaal: Wzmocnienie uczenia się umiejętności motorycznych za pomocą gradientów polityki, 2008 Dzięki prymitywnemu uczeniu …

1
Kilka wątpliwości dotyczących zastosowania nauki wzmacniającej w grach takich jak szachy
Wynalazłem szachową grę planszową. Zbudowałem silnik, aby mógł grać autonomicznie. Silnik jest w zasadzie drzewem decyzyjnym. Składa się z: Funkcja wyszukiwania, która w każdym węźle znajduje wszystkie możliwe legalne ruchy Funkcja oceny, która przypisuje wartość liczbową do pozycji na planszy (dodatnia oznacza, że ​​pierwsi gracze zdobywają przewagę, ujemna oznacza, że …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.