1
Znaczenie współczynnika rabatu w uczeniu się przez wzmocnienie
Po przeczytaniu osiągnięć Google Deepmind w grach Atari , próbuję zrozumieć q-learning i q-sieci, ale jestem trochę zdezorientowany. Zamieszanie powstaje w koncepcji współczynnika dyskontowego. Krótkie streszczenie tego, co rozumiem. Głęboka splotowa sieć neuronowa służy do oszacowania wartości optymalnej oczekiwanej wartości działania. Sieć musi zminimalizować funkcję utraty gdzie to Gdzie Q …