AlphaGo (i inne programy do gier wykorzystujące uczenie się przez wzmacnianie) bez ludzkiej bazy danych

13

Nie jestem specjalistą w tej dziedzinie, a moje pytanie jest prawdopodobnie bardzo naiwne. Wynika to z eseju, który ma na celu zrozumienie mocy i ograniczeń uczenia się przez wzmacnianie, jakie zastosowano w programie AlphaGo.

Program AlphaGo został zbudowany przy użyciu m.in. program przeciwko sobie wiele razy.

Teraz zastanawiam się, co by się stało, gdybyśmy próbowali zbudować taki program bez ludzkiej bazy danych, tj. Zaczynając od podstawowego programu Go, znając reguły i jakąś metodę eksploracji drzew, i pozwalając grać przeciwko sobie, aby poprawić swoją sieć neuronową. Czy po wielu grach przeciwko sobie dojdziemy do programu, który może konkurować z najlepszymi ludzkimi graczami? A jeśli tak, to ile gier (rzędu wielkości) byłoby do tego potrzebnych? Lub przeciwnie, czy taki program zbiegnie się w kierunku znacznie słabszego gracza?

Zakładam, że eksperyment nie został przeprowadzony, ponieważ AlphaGo jest tak nowy. Jednak odpowiedź może być oczywista dla specjalisty. W przeciwnym razie zainteresują mnie wszelkie wykształcone przypuszczenia.

Można również zadać to samo pytanie dla „prostszych” gier. Jeśli zastosujemy z grubsza te same techniki uczenia się zbrojenia, które zastosowano w AlphaGo, ale bez ludzkiej bazy danych, w przypadku programu szachowego, czy w końcu uzyskalibyśmy program zdolny pokonać najlepszego człowieka? A jeśli tak, to jak szybko? Czy zostało to wypróbowane? A jeśli nie w szachach, co z warcabami, a nawet prostszymi grami?

Wielkie dzięki.

reinforcement-learning

— Joël
źródło

10

Nie jestem ekspertem, ale wygląda na to, że AlphaGo Zero odpowiada na twoje pytanie. https://deepmind.com/blog/alphago-zero-learning-scratch/

Poprzednie wersje AlphaGo początkowo trenowały tysiące ludzkich amatorskich i profesjonalnych gier, aby nauczyć się grać w Go. AlphaGo Zero pomija ten krok i uczy się grać, grając przeciwko sobie, zaczynając od całkowicie losowej gry. W ten sposób szybko przekroczył ludzki poziom gry i pokonał wcześniejszą wersję AlphaGo pokonującą mistrza o 100 gier do 0.

— Gabe
źródło

Czy to jest nowsze?

— kosmos

1

Zostało to opublikowane 18 października 2017 r.

— ncasas

Interesujące byłoby poznanie wyników przeciwko ludziom. Ponieważ jednym z powodów wstępnie wyszkolonej ludzkiej bazy danych jest udoskonalenie algorytmu MCTS przeciwko ludzkim przeciwnikom. Oryginalny AlphaGo został zoptymalizowany do gry przeciwko ludziom, a nie innym ML. W związku z tym trudniej jest powiedzieć, czy AlphaGo Zero jest ściśle „lepszy” niż oryginalny AlphaGo, czy po prostu dominuje w sensie teorii gier - np. AlphaGo Zero pokonuje AlphaGo pokonuje Lee Sedol pokonuje AlphaGo Zero. . .

— Neil Slater,

4

Neil, tak, to byłoby interesujące. Ale nie postawiłbym nawet centu ludzkich szans przeciwko Alpha Go zero.

— Joël,

1

Q

$Q$

9

To samo pytanie zostało zadane autorowi artykułu AlphaGo, a jego odpowiedź brzmiała: nie wiemy, co by się stało, gdyby AlphaGo uczył się od zera (nie przetestowali go).

Biorąc jednak pod uwagę złożoność gry, trudne byłoby wytrenowanie algorytmu od zera bez wcześniejszej wiedzy. Dlatego na początku rozsądne jest rozpoczęcie budowy takiego systemu poprzez uaktualnienie go do poziomu mistrzowskiego z wykorzystaniem wiedzy zdobytej przez ludzi.

Warto zauważyć, że chociaż człowiek porusza tendencję do selekcji akcji w drzewnych węzłach (stanach), ten uprzedni ma czynnik rozpadu. Oznacza to, że zwiększona liczba odwiedzin do określonego stanu, zmniejsza siłę wcześniejszych, aby zachęcić algorytm do eksploracji.

Obecny poziom Mastery of AlphaGo nie jest znany, jak blisko lub jak daleko jest do ludzkiego stylu gry (w turnieju wykonał jeden ruch, który miał prawie zerowe prawdopodobieństwo wykonania! - ale równie dobrze wykonał kilka naprawdę złych ruchów) . Być może na wszystkie te pytania należy odpowiedzieć, wdrażając odpowiednie algorytmy testowe.

Muszę zedytować swoją odpowiedź, ponieważ najnowszy artykuł DeepMind odpowiada na twoje pytanie. Było wiele ulepszeń, które wyszły z całego poprzedniego doświadczenia z pierwszą wersją AlphaGo i naprawdę warto ją przeczytać.

— Constantinos
źródło

Serdecznie zapraszamy :)

— Constantinos

8

O ile rozumiem algorytm AlphaGo, jest on oparty na prostym frameworku uczenia się zbrojenia (RL), używając wyszukiwania drzewa Monte-Carlo, aby wybrać najlepsze działania. Co więcej, stany i działania objęte algorytmem RL nie są po prostu całą możliwą konfiguracją gry (Go ma ogromną złożoność), ale są oparte na sieci polityk i sieci wartości, wyciągniętych z prawdziwych gier, a następnie poprawione przez granie w gry AlphaGo vs AlphaGo.

Możemy się zastanawiać, czy trening z prawdziwych gier to tylko skrót do oszczędzania czasu, czy też niezbędna opcja, aby uzyskać taką wydajność. Chyba nikt tak naprawdę nie zna odpowiedzi, ale moglibyśmy podać pewne założenia. Po pierwsze, ludzka zdolność do promowania dobrych ruchów wynika ze znacznie bardziej złożonej inteligencji niż zwykła sieć neuronowa. W przypadku gier planszowych jest to połączenie pamięci, doświadczenia, logiki i uczuć. W tym kierunku nie jestem pewien, czy algorytm AlphaGo mógłby zbudować taki model bez wyraźnego zbadania ogromnego odsetka całej konfiguracji gry Go (co jest praktycznie niemożliwe). Obecne badania koncentrują się na budowaniu bardziej złożonej reprezentacji takiej gry, takiej jak relacyjne RL lub indukcyjne uczenie się logiki. Następnie w przypadku prostszych gier (może być tak w przypadku szachów, ale nie ma pewności),

To wciąż tylko opinia. Ale jestem pewien, że klucz do odpowiedzi na twoje pytanie znajduje się w podejściu RL, które jest wciąż dość proste pod względem wiedzy. Naprawdę nie jesteśmy w stanie zidentyfikować, co sprawia, że jesteśmy w stanie poradzić sobie z tymi grami, a najlepszym sposobem, jaki do tej pory udało nam się pokonać człowieka, jest z grubsza uczyć się od niego i ulepszać (nieco) wyuczony model za pomocą ogromnych obliczeń.

— Rudzik
źródło

1

Konkurencyjna gra bez ludzkiej bazy danych jest nawet możliwa w skomplikowanych, częściowo obserwowanych środowiskach. OpenAI koncentruje się na tym kierunku. Zgodnie z tym artykułem :

Gra własna zapewnia, że środowisko jest zawsze właściwym poziomem trudności dla AI do poprawy.

To ważny powód sukcesu gry własnej.

OpenAI osiągnął nadludzkie wyniki dla Dota 2 1v1, 11 sierpnia 2017 roku pokonał Dendi 2-0 na standardowych zasadach turniejowych.

Bot nauczył się gry od zera podczas samodzielnej gry i nie korzysta z nauki naśladowania ani wyszukiwania drzew. Jest to krok w kierunku budowania systemów AI, które osiągają dobrze określone cele w trudnych, skomplikowanych sytuacjach z udziałem prawdziwych ludzi.

Nie tylko gry, ten kierunek jest również obiecujący dla zadań robotyki.

Odkryliśmy, że gra własna pozwala symulowanym SI odkrywać umiejętności fizyczne, takie jak walka z piłką, kopanie, udawanie, kopanie, łapanie i nurkowanie w piłce, bez wyraźnego projektowania środowiska z tymi umiejętnościami.

W następnym kroku rozszerzają metodę uczenia się współpracy, rywalizacji i komunikacji , a nie tylko grania w samodzielną grę.

— TQA
źródło