Nie jestem specjalistą w tej dziedzinie, a moje pytanie jest prawdopodobnie bardzo naiwne. Wynika to z eseju, który ma na celu zrozumienie mocy i ograniczeń uczenia się przez wzmacnianie, jakie zastosowano w programie AlphaGo.
Program AlphaGo został zbudowany przy użyciu m.in. program przeciwko sobie wiele razy.
Teraz zastanawiam się, co by się stało, gdybyśmy próbowali zbudować taki program bez ludzkiej bazy danych, tj. Zaczynając od podstawowego programu Go, znając reguły i jakąś metodę eksploracji drzew, i pozwalając grać przeciwko sobie, aby poprawić swoją sieć neuronową. Czy po wielu grach przeciwko sobie dojdziemy do programu, który może konkurować z najlepszymi ludzkimi graczami? A jeśli tak, to ile gier (rzędu wielkości) byłoby do tego potrzebnych? Lub przeciwnie, czy taki program zbiegnie się w kierunku znacznie słabszego gracza?
Zakładam, że eksperyment nie został przeprowadzony, ponieważ AlphaGo jest tak nowy. Jednak odpowiedź może być oczywista dla specjalisty. W przeciwnym razie zainteresują mnie wszelkie wykształcone przypuszczenia.
Można również zadać to samo pytanie dla „prostszych” gier. Jeśli zastosujemy z grubsza te same techniki uczenia się zbrojenia, które zastosowano w AlphaGo, ale bez ludzkiej bazy danych, w przypadku programu szachowego, czy w końcu uzyskalibyśmy program zdolny pokonać najlepszego człowieka? A jeśli tak, to jak szybko? Czy zostało to wypróbowane? A jeśli nie w szachach, co z warcabami, a nawet prostszymi grami?
Wielkie dzięki.