Dlaczego ta fuzja okazała się korzystna?
Jeśli myślisz, że wspólna sieć Value / Policy składa się ze współdzielonego komponentu (warstwy sieci rezydualnej) z komponentem Value and Policy na górze, a nie z oddzieleniem obaw, to ma to większy sens.
Podstawową przesłanką jest to, że wspólna część sieci (ResNet) zapewnia generalizację wysokiego poziomu danych wejściowych (stany gry prowadzące do przejścia), która jest dobrą reprezentacją danych wejściowych zarówno dla płytkich sieci Value, jak i sieci Policy.
W takim przypadku możemy znacznie zmniejszyć obciążenie obliczeniowe, ucząc jednego współdzielonego ResNet i używając go do dwóch znacznie prostszych sieci niż ucząc dwóch ResNets pod kątem wartości i zasad. W ich przypadku wspólne szkolenie tych dwóch poprawia również regularyzację, a tym samym tworzy solidniejszą, ogólniejszą reprezentację.
W szczególności papier Alpha Go Zero Silver i in. , Opanowanie gra Go bez ludzkiej wiedzy , stwierdza się, że:
Połączenie zasad i wartości w jedną sieć nieznacznie zmniejszyło dokładność przewidywania ruchu, ale zmniejszyło błąd wartości i zwiększyło wydajność gry w AlphaGo o około 600 kolejnych Elo. Wynika to częściowo z poprawy wydajności obliczeniowej, ale co ważniejsze, podwójny cel reguluje sieć do wspólnej reprezentacji, która obsługuje wiele przypadków użycia.
Czy tę technikę można zastosować ogólnie, czy tylko w szczególnych przypadkach?
Podobnie jak typowe komponenty w bibliotekach oprogramowania, ma sens tylko wtedy, gdy problemy, które próbujesz rozwiązać, korzystają ze wspólnej reprezentacji.
Możesz go użyć, jeśli trenujesz klasyfikatorów do podobnych zadań lub trenujesz nowe zadanie z niewielką ilością danych, w którym masz już przeszkolony klasyfikator na większym, podobnym zestawie danych.
Poza Go jest często używany do rozpoznawania obrazów. Głęboko wstępnie przeszkolone sieci, takie jak te z zawodów ImageNet ILSVRC , są powszechnie stosowane jako punkt wyjścia. Są klasyfikatorami, którzy zostali przeszkoleni (od tygodni!) Na ponad milionie zdjęć.
Następnie powiedz, że chcesz utworzyć sieć, aby rozpoznać swoją ulubioną markę rowerów, zacznij od ogólnego potoku rozpoznawania obrazów przeszkolonego w ImageNet, odetnij ostatnie warstwy, które dokonały faktycznej klasyfikacji („to Border Collie”) i dodaj mały nowy klasyfikator do wybierania tylko rowerów, na których Ci zależy.
Ponieważ wstępnie wyszkolony klasyfikator zapewnia już koncepcje obrazów wysokiego poziomu, które są dobrymi elementami składowymi do rozpoznawania obrazów (klasyfikuje 200 kategorii), pozwala to zaoszczędzić wiele treningu i czyni z niego bardzo solidny klasyfikator.
Oczywiście istnieje wiele przypadków, w których problemy nie mają użytecznych wspólnych reprezentacji, a zatem nie korzystają z połączonej sieci. Niemniej jednak jest to przydatne narzędzie w odpowiednich sytuacjach.
Wyszukaj Transfer Learning lub Multi-Task Learning, aby dowiedzieć się więcej na ten temat.