Witryna sztucznej inteligencji definiuje uczenie się poza polityką i nauczanie na zasadach w następujący sposób:
„Osoba ucząca się poza polityką poznaje wartość optymalnej polityki niezależnie od działań agenta. Q-learning jest osobą uczącą się poza polityką. Uczący się polityki poznaje wartość polityki realizowanej przez agenta, w tym kroki eksploracji . ”
Chciałbym prosić o wyjaśnienie w tej sprawie, ponieważ wydaje się, że nie mają one dla mnie żadnego znaczenia. Obie definicje wydają się identyczne. To, co właściwie zrozumiałem, to uczenie się bez modeli i oparte na modelach i nie wiem, czy mają one coś wspólnego z tymi, o których mowa.
W jaki sposób możliwe jest poznanie optymalnej polityki niezależnie od działań agenta? Czy zasady nie są uczone, gdy agent wykonuje działania?