Zastanawiam się, jak wytrenować sieć neuronową do gry planszowej opartej na rundzie, takiej jak kółko i krzyżyk, szachy, ryzyko lub każda inna gra oparta na rundzie. Wydaje się, że uzyskanie następnego ruchu przez wnioskowanie jest dość proste, poprzez wprowadzenie stanu gry jako danych wejściowych i wykorzystanie wyniku jako ruchu dla bieżącego gracza. Jednak szkolenie AI w tym celu nie wydaje się takie proste, ponieważ:
- Oceny może nie być, jeśli pojedynczy ruch jest dobry, czy nie, więc trening pojedynczych ruchów nie wydaje się właściwym wyborem
- Wykorzystywanie wszystkich stanów (wejść) i ruchów (wyjść) całej gry do trenowania sieci neuronowej nie wydaje się być dobrym wyborem, ponieważ nie wszystkie ruchy w przegranej grze mogą być złe
Zastanawiam się więc, jak wytrenować sieć neuronową dla planszowej gry planszowej? Chciałbym stworzyć sieć neuronową dla kółko i krzyżyk za pomocą tensorflow.