W dokumentach AlphaGo Zero i AlphaZero DeepMind opisują dodawanie szumu Dirichleta do wcześniejszych prawdopodobieństw działań z węzła głównego (stanu płyty) w wyszukiwaniu drzewa Monte Carlo:
Dodatkową eksplorację osiąga się, dodając szum Dirichleta do wcześniejszych prawdopodobieństw w węźle głównym , konkretnie , gdzie i ; hałas ten gwarantuje, że wszystkie ruchy mogą zostać wypróbowane, ale wyszukiwanie może nadal unieważniać złe ruchy.
(AlphaGo Zero)
I:
Hałas Dirichleta dodano do wcześniejszych prawdopodobieństw w węźle głównym; skalowano to odwrotnie proporcjonalnie do przybliżonej liczby legalnych ruchów na typowej pozycji, do wartości odpowiednio dla szachów, shogi i Go.
(AlphaZero)
Dwie rzeczy, których nie rozumiem:
P(s, a)
jest -wymiarowy wektor. Jest skrót do rozkładu Dirichleta z parametry, każdy z wartością ?Dirichleta spotkałem tylko jako koniugat przed rozkładem wielomianowym. Dlaczego został tu wybrany?
Dla kontekstu P(s, a)
jest tylko jednym z elementów obliczeń PUCT (wielomianowe drzewo górnej ufności, wariant górnych granic ufności) dla danego stanu / akcji. Jest skalowany przez stałą i miarę określającą, ile razy dana akcja została wybrana spośród rodzeństwa podczas MCTS i dodana do szacowanej wartości akcji Q(s, a)
:
PUCT(s, a) = Q(s, a) + U(s, a)
.- .