Dlaczego litera Q została wybrana w imieniu Q-learningu?
Większość liter jest wybieranych jako skrót, na przykład oznacza strategię, a oznacza wartość. Ale nie sądzę, że Q jest skrótem dowolnego słowa.
Dlaczego litera Q została wybrana w imieniu Q-learningu?
Większość liter jest wybieranych jako skrót, na przykład oznacza strategię, a oznacza wartość. Ale nie sądzę, że Q jest skrótem dowolnego słowa.
Odpowiedzi:
Przykro mi, że rozczarowałem wszystkich, ale Q nic nie znaczy :)
Q-learning został zaproponowany przez Watkinsa w jego rozprawie doktorskiej w 1989 r., Patrz str. 96. Q w równaniu na tej stronie jest aktualizowane w określony sposób na każdym kroku. Q jest oczekiwanym zwrotem z działania w danym stanie, patrz definicja Q na str. 46. Zwrot ma sens ekonomiczny lub teorii gier, tzn. Zdyskontowanych nagród ważonych prawdopodobieństwem, a nie termin informatyczny, taki jak zwrot z funkcji.
Zauważ, że użył już P dla prawdopodobieństwa i R dla nagrody, więc chwycił Q za zwrot. Otóż to. Wybór litery Q nie ma głębszego znaczenia.
Powód, dla którego Q-Learning jest nazywany, ponieważ wykorzystuje wartości Q do formowania swoich oszacowań. Zwykłą zasadą uczenia się jest: i powinno być jasne, dlaczego nazywa się to Q-Learning.
Moim zdaniem jednak pytanie brzmi, dlaczego tak nazywa się Q-Learning. Chociaż nie wydaje się, aby odpowiedź była zadowalająca, ten link wspomina, że Andrew Barto , który jest jednym z założycieli Modern Reinforcement Learning, uważa, że oznacza Jakość, nazywaną tak, ponieważ charakteryzuje, jak dobry byłby wynik wyciągnięcia ręki być.