Artykuł AlphaGo Zero z Nature , „Opanowanie gry bez ludzkiej wiedzy”, głosi cztery główne różnice w stosunku do wcześniejszej wersji:
- Tylko samokształcenie (nie trenowane w grach ludzkich)
- Używanie tylko planszy i kamieni jako danych wejściowych (brak funkcji odręcznych).
- Korzystanie z jednej sieci neuronowej dla zasad i wartości
- Nowy algorytm wyszukiwania drzewa, który wykorzystuje tę połączoną sieć zasad / wartości, aby wskazać, gdzie szukać dobrych ruchów.
Punkty (1) i (2) nie są nowe w uczeniu się zbrojenia, ale poprawiają poprzednie oprogramowanie AlphaGo , jak podano w komentarzach do twojego pytania. Oznacza to po prostu, że teraz używają czystej nauki zbrojenia, zaczynając od losowo zainicjowanych wag. Jest to możliwe dzięki lepszym, szybszym algorytmom uczenia się.
Ich twierdzenie brzmi: „Naszym głównym celem jest wykazanie, że nadludzką wydajność można osiągnąć bez wiedzy w dziedzinie ludzkiej”. (str. 22).
Punkty (3) i (4) są nowe w tym sensie, że ich algorytm jest prostszy i bardziej ogólny niż poprzednie podejście. Wspominają również, że jest to poprawa w stosunku do poprzedniej pracy Guo i in.
Ujednolicenie sieci zasad / wartości (3) umożliwia im wdrożenie bardziej wydajnego wariantu wyszukiwania drzewa Monte-Carlo w celu wyszukiwania dobrych ruchów i jednoczesnego korzystania z drzewa wyszukiwania w celu szybszego trenowania sieci (4). To jest bardzo potężne.
Ponadto opisują szereg interesujących szczegółów implementacji, takich jak grupowanie i ponowne wykorzystywanie struktur danych w celu optymalizacji wyszukiwania nowych ruchów.
Skutkuje to tym, że wymaga mniejszej mocy obliczeniowej, działając na 4 TPU zamiast 176 GPU i 48 TPU w poprzednich wersjach oprogramowania.
To zdecydowanie czyni go „nowatorskim” w kontekście oprogramowania Go. Uważam, że (3) i (4) są również „nowatorskie” w szerszym kontekście i będą miały zastosowanie w innych dziedzinach uczenia się przez wzmocnienie, takich jak np . Robotyka.