Chcę stworzyć sztuczną inteligencję, która może grać w pięć w jednym rzędzie / gomoku. Jak wspomniałem w tytule, chcę do tego wykorzystać naukę wzmacniającą.
Używam metody gradientu zasad , a mianowicie REINFORCE, z linią bazową. Do przybliżenia wartości i funkcji polityki używam sieci neuronowej . Ma splotowe i w pełni połączone warstwy. Wszystkie warstwy, z wyjątkiem danych wyjściowych, są wspólne. Warstwa wyjściowa polityki ma na sobie jednostkę wyjściową (rozmiar płyty) i softmax . To jest stochastyczne. Ale co, jeśli sieć ma bardzo duże prawdopodobieństwo nieprawidłowego ruchu? Nieprawidłowy ruch występuje, gdy agent chce sprawdzić kwadrat z jednym „X” lub „O”. Myślę, że może utknąć w tym stanie gry.
Czy możesz polecić jakieś rozwiązanie tego problemu?
Domyślam się, że użyję metody aktor-krytyk . Za nieważny ruch powinniśmy dać nagrodę ujemną i przekazać turę przeciwnikowi.