Pytania otagowane jako reinforcement-learning

1
Znaczenie współczynnika rabatu w uczeniu się przez wzmocnienie
Po przeczytaniu osiągnięć Google Deepmind w grach Atari , próbuję zrozumieć q-learning i q-sieci, ale jestem trochę zdezorientowany. Zamieszanie powstaje w koncepcji współczynnika dyskontowego. Krótkie streszczenie tego, co rozumiem. Głęboka splotowa sieć neuronowa służy do oszacowania wartości optymalnej oczekiwanej wartości działania. Sieć musi zminimalizować funkcję utraty gdzie to Gdzie Q …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.