W artykule DeepMind z 2015 r. Na temat uczenia się głębokiego wzmacniania stwierdzono, że „poprzednie próby połączenia RL z sieciami neuronowymi były w dużej mierze nieudane z powodu niestabilnego uczenia się”. Następnie w artykule wymieniono niektóre przyczyny tego zjawiska, oparte na korelacjach między obserwacjami.
Czy ktoś mógłby wyjaśnić, co to znaczy? Czy jest to forma nadmiernego dopasowania, w której sieć neuronowa uczy się pewnej struktury, która jest obecna w treningu, ale może nie być obecna podczas testów? Czy to oznacza coś jeszcze?
Artykuł można znaleźć: http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html
A sekcja, którą próbuję zrozumieć, to:
Uczenie się wzmocnienia jest znane jako niestabilne lub nawet rozbieżne, gdy aproksymator funkcji nieliniowej, taki jak sieć neuronowa, jest używany do reprezentowania funkcji wartości akcji (znanej również jako Q). Ta niestabilność ma kilka przyczyn: korelacje występujące w sekwencji obserwacji, fakt, że małe aktualizacje Q mogą znacząco zmienić politykę, a tym samym zmienić rozkład danych, a także korelacje między wartościami akcji a wartościami docelowymi.
Rozwiązujemy te niestabilności za pomocą nowatorskiego wariantu Q-learningu, który wykorzystuje dwa kluczowe pomysły. Po pierwsze, użyliśmy inspirowanego biologicznie mechanizmu zwanego odtwarzaniem doświadczeń, który losowo dobiera dane, usuwając w ten sposób korelacje w sekwencji obserwacji i wygładzając zmiany w rozkładzie danych. Po drugie, zastosowaliśmy iteracyjną aktualizację, która dostosowuje wartości akcji (Q) do wartości docelowych, które są okresowo aktualizowane, zmniejszając w ten sposób korelacje z celem.