Funkcja oceny silnika szachowego, bez względu na to, czy jest utworzona jako sieć neuronowa czy kod jawny, zawsze jest w stanie przypisać wartość do dowolnej pozycji planszy. Jeśli dasz mu pozycję na planszy, nawet absurdalną, która nigdy nie wystąpiłaby w grze, będzie w stanie wypluć liczbę reprezentującą, jak sprzyja to jednemu lub drugiemu graczowi. Ponieważ liczba pozycji na planszy w szachach jest niemożliwie gigantyczna, trening może odbywać się na nieskończenie małej próbce drzewa gry. Silnik nie tylko przywołuje wcześniej obliczone wartości pozycji deski, ale wykonuje obliczenia na podstawie ułożenia elementów. Na przykład bez sieci neuronowej częścią oceny silnika szachowego może być zsumowanie wartości każdego pionka na boku i odjęcie całkowitej wartości pionków przeciwnika. Następnie,
Gdy silnik nie jest przeszkolony, wartości przypisane do pozycji mogą być również losowe, ponieważ parametry funkcji oceny zaczynają się od (zwykle) wartości losowych. Celem fazy treningowej jest dostosowanie parametrów silnika, tak aby przypisywał wysokie wyniki do pozycji na planszy, które są prawdopodobnymi stanami wygranej dla gracza.
Z artykułu na temat AlphaZero (strona 3):
Parametry głębokiej sieci neuronowej w AlphaZero są trenowane przez samouczące się uczenie wzmacniające, zaczynając od losowo inicjowanych parametrów. Gry są rozgrywane przez wybranie ruchów dla obu graczy przez MCTS. Pod koniec gry pozycja końcowa jest punktowana zgodnie z zasadami gry, aby obliczyć wynik gry: -1 dla przegranej, 0 dla remisu i +1 dla wygranej. Parametry sieci neuronowej są aktualizowane, aby zminimalizować błąd między przewidywanym wynikiem a wynikiem gry oraz aby zmaksymalizować podobieństwo wektora polityki do prawdopodobieństwa wyszukiwania.
[symbole matematyczne usunięte z cytatu]
Podsumowując, podczas treningu AlphaZero grała przeciwko sobie. Po zakończeniu gry wykorzystano wynik gry i dokładność jej przewidywań co do przebiegu gry, aby dopasować sieć neuronową, aby była dokładniejsza podczas następnej gry. AlphaZero nie prowadzi rejestru wszystkich pozycji, które widział, ale dostosowuje się, aby móc dokładniej ocenić każdą tablicę, którą zobaczy w przyszłości.