Powód korzystania ϵ- pożądanym podczas testowania jest to, że w przeciwieństwie do nadzorowanego uczenia maszynowego (na przykład klasyfikacji obrazów), w uczeniu się przez wzmocnienie nie ma niewidzialnego, przetrzymywanego zestawu danych dostępnych dla fazy testowej. Oznacza to, że algorytm jest testowany na tej samej konfiguracji, na której został przeszkolony. Teraz artykuł wspomina (sekcja Metody, procedura oceny):
Wyszkoleni agenci byli oceniani, grając w każdą grę 30 razy przez maksymalnie 5 minut za każdym razem z różnymi początkowymi przypadkowymi warunkami („brak”; patrz Tabela danych rozszerzonych 1) i ϵ-greedy polityka z ϵ = 0,05. Procedurę tę przyjęto, aby zminimalizować możliwość nadmiernego dopasowania podczas oceny.
Zwłaszcza, że wstępnie przetworzone dane wejściowe zawierają historię wcześniej napotkanych stanów, problemem jest to, że zamiast uogólniać na podstawową rozgrywkę, agent zapamiętuje optymalne trajektorie dla tej konkretnej gry i odtwarza je podczas fazy testowania; rozumie się przez to „możliwość nadmiernego dopasowania podczas oceny” . W środowiskach deterministycznych jest to oczywiste, ale również w przypadku stochastycznych zmian stanów może wystąpić zapamiętywanie (tj. Nadmierne dopasowanie). Wykorzystanie randomizacji podczas fazy testowej, w postaci początkowych przerw w losowaniu, a także części losowych akcji podczas gry, zmusza algorytm do radzenia sobie z nieprzewidzianymi stanami, a zatem wymaga pewnego stopnia uogólnienia.
Z drugiej strony ϵ-greedy nie jest wykorzystywany do potencjalnej poprawy wydajności algorytmu, pomagając mu utknąć w źle wyszkolonych obszarach przestrzeni obserwacyjnej. Chociaż daną zasadę zawsze można traktować jedynie jako przybliżenie optymalnej polityki (przynajmniej dla tego rodzaju zadań), przeszkolono ją znacznie dalej niż punkt, w którym algorytm wykonywałby bezsensowne działania. Za pomocąϵ = 0podczas testowania potencjalnie poprawiłoby wydajność, ale chodzi tutaj o pokazanie zdolności do generalizacji. Co więcej, w większości gier Atari stan ewoluuje również przy braku akcji, więc agent naturalnie „utknie”, jeśli to się kiedykolwiek zdarzy. Biorąc pod uwagę wspomniany gdzie indziej przykład labiryntu, w którym środowisko nie ewoluuje w przypadku braku operacji, agent szybko dowie się, że wpadnięcie na ścianę nie jest dobrym pomysłem, jeśli nagroda jest odpowiednio ukształtowana (na przykład -1 za każdy krok); szczególnie przy zastosowaniu optymistycznych wartości początkowych wymagana eksploracja odbywa się naturalnie. Jeśli nadal zdarza Ci się znaleźć algorytm, który utknął w niektórych sytuacjach, oznacza to, że musisz wydłużyć czas szkolenia (tj. Uruchomić więcej odcinków), zamiast wprowadzać pomocniczą randomizację w odniesieniu do działań.
Jeśli jednak pracujesz w środowisku o zmieniającej się dynamice systemu (tj. Zmiany stanu lub nagrody zmieniają się w czasie), musisz zachować pewien stopień eksploracji i odpowiednio zaktualizować swoją politykę, aby nadążać za zmianami.