W jaki sposób Alpha Zero jest „bardziej ludzka”?


35

Mam prawdopodobnie naiwne pytanie dotyczące AlphaZero. Widziałem, jak opisywano to jako grę w „bardziej ludzkim” stylu niż inne komputery, ale cokolwiek robi, zyskuje dzięki temu około 100 punktów ELO. Kasparow i wielu innych twierdzili, że silny człowiek we współpracy z komputerem pokona silny komputer (być może około 100 ELO ??). Oczywistym pytaniem jest więc, jak AlphaZero porównałby się z kombinacją „centaur”?

Po obejrzeniu tylko kilku gier zauważam, że większość komputerów gra w szeroko otwarte gry, które maksymalizują ich własną mobilność, ale AlphaZero wydaje się bardzo zaniepokojony ograniczaniem mobilności przeciwników. W ludzkim graczu opisałbym to jako kwestię stylu, a nie człowieka.


4
To, co jest warte, to twierdzenie Kasparowa jest bardzo przestarzałe. Człowiek i komputer we współpracy („zaawansowane szachy” lub „szachy centaurowe”) nie są już w stanie samodzielnie przewyższyć komputera - komputery są po prostu zbyt dobre - Sztokfisz 8 jest oceniany na około 3400 IIRC, w porównaniu do ~ 2825 dla Magnusa Carlsena .
Stephen Touset,

8
@StephenTouset Tylko ostrożność, aby zachować ostrożność przy ocenie Elo dla silników. Te, które najczęściej widziałem, pochodzą z porównań silnika z silnikiem, które nie zostały znormalizowane dla prawdziwego człowieka. Odpowiedni cytat z Wikipedii : „Te oceny, [...] nie mają bezpośredniego związku z ocenami FIDE Elo lub innymi ocenami federacji szachowych graczy ludzkich. Z wyjątkiem niektórych gier przeciwko człowiekowi i maszyn, które SSDF zorganizował wiele lat temu (które były daleko od dzisiejszego poziomu), nie ma kalibracji między żadną z tych list
rankingowych

1
Myślę, że ludzie mogli, ale nie w standardowej kontroli czasu. Długie gry korespondencyjne powinny być w porządku.
SmallChess

4
ugh, AlphaZero to produkt Google. Nic więc dziwnego, że usłyszysz o tym więcej propagandy niż produkty innych firm. Sądzę, że mają lepsze umowy z autorami i wydawcami. Weź to z kupą soli, jak wszystko w Waymo.
coderworks,

Odpowiedzi:


33

Strona 5 w gazecie ma swoją odpowiedź:

... AlphaZero kompensuje niższą liczbę ocen, wykorzystując swoją głęboką sieć neuronową, aby kosztować znacznie bardziej selektywnie najbardziej obiecujące warianty - prawdopodobnie bardziej „ludzkie” podejście do szachów ...

„selektywnie” to słowo kluczowe. Co to znaczy? Użyjmy następującej pozycji w naszym przykładzie:

https://chess24.com/en/read/news/london-classic-5-caruana-shows-how-it-s-done

Rusza się

Jest to ostatnia gra wygrana przez Caruana w 2017 London Chess Classic. Biały biskup jest atakowany i wiesz, że musisz go przenieść. Ale gdzie?

Możliwości (nie tracąc kawałka):

  • Bh4
  • Be3
  • Bd2
  • Bc1

Co myślała Caruana?

Czułem, że w pewnym momencie przegram, ale kiedy zobaczyłem 25.Bc1, nagle zacząłem bardziej optymistycznie patrzeć na swoje szanse. Zdałem sobie sprawę, że moja pozycja jest zła, ale przynajmniej miałem plan i to było naprawdę wszystko, czego potrzebowałem, aby mieć pewność co do tej pozycji. Kiedy zobaczyłem ten b3, c4 pozycja jest obosieczna i mam pewne szanse.

To ludzkie myślenie i „ludzki ruch”. Caruana nie rozważyła Bh4, Be3 i Bd2, ponieważ „wyglądały” źle. Skupiał się tylko i wyłącznie na ruchu Bc1.

Ludzie grają w szachy bardzo selektywnie , odrzucamy nierozsądne ruchy, ponieważ nie mamy czasu na równe zbadanie wszystkich możliwości.

  • Odrzucamy Bh4, ponieważ uwalnia napięcie pionka h6
  • Odrzucamy Be3, ponieważ blokuje on dwie białe wieże trzeciego stopnia
  • Odrzucamy Bd2, ponieważ blokuje Białą Królową po stronie króla

To właśnie AlphaZero próbuje twierdzić w gazecie. Twierdzą, że ich algorytm, choć wolniejszy niż Sztokfisz, jest w stanie selektywnie wybierać lepiej ruchy niż Sztokfisz podczas wyszukiwania. Sztokfisz jest szybszy, ale marnuje czas na złe ruchy. AlphaZero jest wolniejszy, ale bardziej precyzyjny (jak to robił Caruana).

Na przykład AlphaZero może wydać 80% zasobów na Bc1 i 20% na wszystkie inne ruchy biskupa. Sztokfisz może dać 25% za każdy ruch (Bh4, Be3, Bd2, Bc1).


1
Zasadniczo styl gry niekoniecznie jest bardziej ludzki, ale podejście do znalezienia następnego kroku do gry. Przynajmniej według artykułu. Ponadto nie mogę go edytować, ale twój cytat z Caruana ma dość dużą literówkę: „Kiedy zobaczyłem jego b3, c4” powinno być „Kiedy zobaczyłem to b3, c4”
Arthur

@Arthur Według papieru (i tylko papieru) styl gry niekoniecznie jest bardziej ludzki. Nie mówię NIE, ale nic w gazecie tego nie mówi.
SmallChess

Algorytmy Monte Carlo mają parametr kontrolujący wykorzystanie eksploracji x, więc ruchy, których alfa-beta nigdy nie bierze pod uwagę (ze względu na czas), alfa zero.
Fernando,

@ Fernando Czy możesz wyjaśnić, na co odpowiadasz? Staram się zrozumieć sens. Jestem też zdezorientowany przez „nigdy nie rozważaj ze względu na czas”. Wyszukiwanie alfa-beta pomija gałęzie, które są wyraźnie gorsze niż niektóre inne już zbadane gałęzie. Nie rozumiem, co to ma wspólnego z czasem.
IA Petr Harasimovic,

Zasadniczo, jeśli linia ma wartość +0,32, a druga to +0,13, AlphaZero poświęci czas na pierwszą.
Jossie Calderon,

16

Większość silnych silników kładzie nacisk na głębokie spojrzenie, kosztem powierzchownej funkcji oceny. W artykule AlphaZero mówią, że Sztokfisz patrzy na 70 milionów pozycji na sekundę.

Ludzcy arcymistrzowie rzeczywiście patrzą na bardzo niewiele pozycji w porównaniu do silników, ale mają lepsze przeczucie, kto jest lepszy na danym stanowisku.

AlphaZero sprawdzał tylko 80 000 pozycji na sekundę, więc spędza znacznie więcej czasu w swojej funkcji oceny.

W tym sensie mieli na myśli „bardziej ludzkie”, nic więcej.


11

AlphaZero wydaje się już grać jak zwykły „centaur” -> GM korerespodence z asystą silnika.

Jako FM miałbym dużo więcej radości z grania w AlphaZero w porównaniu do zwykłego silnika.

Jednym z porównań byłoby to, że grałoby tak, jak Karpow z doskonałą taktyką. (Gra 9 AlphaZero odkłada kawałek na 15 ruchów, co jest bardzo podobne do Tal).

To nie tylko styl, AlphaZero sprawia wrażenie lepszego zrozumienia pozycji niż Sztokfisz.

AlphaZero nie cierpi również na Efekt Horyzontu, który do tej pory ucierpiały WSZYSTKIE silniki szachowe. Raz po raz jest w stanie poprawnie ocenić pozycję o więcej ruchów w dół niż Sztokfisz.

Oto przykład:

AlphaZero - Sztokfisz, Alphazero vs Sztokfisz: AlphaZero - Sztokfisz, 05.12.2017, 1-0
1. d4 E6 2. E4 D5 3. NC3 Sf6 4. E5 Nfd7 5. F4 C5 6. NF3 cxd4 7. Nb5 BB4 + 8. BD2 BC5 9. b4 BE7 10. Nbxd4 NC6 11. c3 A5 12. B5 Nxd4 13. cxd4 Nb6 14. a4 NC4 15. BD3 Nxd2 16. Kxd2 BD7 17. KE3 B6 18. g4 h5 19. QG1 hxg4 20. Qxg4 BF8 21. H4 Qe7 22. Rhc1 G6 23. Rc2 KD8 24. Rac1 25. RC7 Qe8 Rc8 26. Rxc8 + Bxc8 27. Rc6 Bb7 28. Rc2 Kd7 29. Ng5 Be7 30. Bxg6 Bxg5 31. Qxg5 fxg6 32. f5 Rg8 33. Qh6 Qf7 34. f6 Kd8 35. Kd2 Kd8 36. Rc1 . Qe3 Qf8 38. Qc3 Qb4 39. Qxb4 axb4 40. Rg1 b3 41. Kc3 Bc8 42. Kxb3 Bd7 43. Kb4 Be8 44. Ra1 Kc7 45. a5 Bd7 46. ​​axb6 + Kxb6 47. Ra6 + Kb7 48. Kc5 Rd8 49. Ra2 Rc8 + 50. Kd6 Be8 51. Ke7 g5 52. hxg5 1-0

AlphaZero gra króla do centrum 16. Kxd2! w środkowej grze poprawnie oceniając, że czarne nie będą w stanie z tego skorzystać.

Potrafi poprawnie ocenić poświęcenie kawałka 30. Bxg6! podczas gdy zwykłe silniki nie są w stanie dostrzec, że zostały zgubione na kilka ruchów.

  1. f5 też jest całkiem niezły.

Istnieją inne przykłady, takie jak wymiana Ofiary w grze 3.


8

Łatwo jest wskoczyć na modę, mówiąc, że gra Alpha-Zero jest „bardziej” ludzka niż poprzednie programy szachowe, jak wskoczyć na przeciwny wóz i powiedzieć, że gra Alpha-Zero jest całkowicie „obca”. Nie jest jasne, że gra Alpha-zero jest „bardziej ludzka”, szczególnie biorąc pod uwagę naszą ludzką tendencję do antropomorfizmu.

Szachy jako walka (ludzkiego) umysłu

Ale czy w szachach ta tendencja jest prawdziwa? Magnus Carlsen powiedział kiedyś o tym, jak ogólnie „tradycyjnym” komputerom brakuje ludzkiej kreatywności, mówiąc:

„W szachy chodzi o walkę między ludzkimi umysłami. To sprawia, że ​​jest ekscytujący. Szachy komputerowe są mechaniczne, suche i nijakie. Ruchy są oczywiście bardzo silne, ale nie ma stylu. Jeśli spróbujesz grać przeciwko komputerowi szachowemu , nie tylko przegrasz z bardzo dużą pewnością, ale również będziesz się nudzić.

Magnus Carlsen nie widział dowodów na ludzkie style gry w tradycyjnych komputerach szachowych. Sprawdźmy więc, czy ostatnie osiągnięcie Alpha-Zero odwróciło tę perspektywę i przesunęło nas w stronę czegoś bardziej przypominającego nas samych.

Jeśli przez „ludzki” rozumiesz zabawę wykazującą zachowania bardziej skłonne do odwołania się do naszego poczucia antropomorfizmu, to czy styl alfa-zero wydaje się bardziej ludzki? Jak naprawdę testujemy tych subiektywnych krótkowzrocznych ludzi, którzy lubią rzutować na rzeczy inne niż ludzkie? Zapytajmy - czy algorytm „selektywnie wybiera lepszy”, czy wykazuje „bardziej ludzki twórczy wybór” w swoim stylu gry?

Twórcy algorytmu wskazują, że w przeciwieństwie do Sztokfiszy, która korzysta z algorytmu wyszukiwania Alpha-Beta, Alpha-Zero wykorzystuje algorytm wyszukiwania drzewa Monte-Carlo (MCTS), który przyjmuje jako dane wejściowe ważone parametry θ zbudowane z poprzednich wyników ~ Strona 3. Opanowanie szachów i Shogi przez samodzielną grę z ogólnym algorytmem uczenia się zbrojenia ).

Algorytm wcale nie wykazuje wyboru. W rzeczywistości angażuje się on w losowe, ale probabilistyczne wyszukiwanie Monty-Carlo, w którym możliwe ścieżki wyszukiwania są coraz bardziej naruszane przez poprzednie wyniki. Czy Alpha-zero zdecydowało się zoptymalizować swój styl gry w ten sposób, czy był to wybór jego programistów?

Czy alfa-zero zawsze ma do dyspozycji wszystkie możliwe ruchy do rozważenia, czy też niektóre ruchy są zniekształcone algorytmicznie w sposób naśladujący doświadczenie, które ludzie mogą interpretować antropomorficznie?

Początkowo miał do dyspozycji wszystkie ruchy, więc jego „styl” był całkowicie losowy. Jednak, ponieważ jego wyszukiwanie jest coraz bardziej i optymalnie ograniczone poprzednim sukcesem lub porażką, jego styl zmienia się w kierunku trybu, w którym programiści go związali. Czy to jednak „bardziej ludzkie”? Porównaj to z Magnusem Carlesenem, który czasami wybiera mniej optymalne ruchy, ponieważ są bardziej kreatywni :

Magnus Carlsen: „Doceniam tworzenie czegoś wyjątkowego”

Szachy jako walka umysłu (obcego)

Ludzie mogą wybrać kryteria, które kierują ich własnym stylem gry (na przykład często wybrałem impuls i błąd we własnym stylu). Gra w szachy i wiele zarówno zobaczyć Alpha-Zero jest iść jako zdecydowanie Alien . Nick Hynes, student w MIT's Computer Science and Artificial Intelligence Laboratory (CSAIL), zauważa:

„To, co widzimy tutaj, to model wolny od ludzkich uprzedzeń i założeń: może nauczyć się wszystkiego, co określa jako optymalne, co może być bardziej zróżnicowane niż nasze własne koncepcje tego samego. To jak obca cywilizacja wymyślająca własną matematykę, która pozwala jej na takie rzeczy jak podróże w czasie ... ”

Podobnie GM Peter Heine Nielsen powiedział Chess.com :

„Po przeczytaniu gazety, ale szczególnie po obejrzeniu gier, pomyślałem, no cóż, zawsze zastanawiałem się, jak by to było, gdyby wyższy gatunek wylądował na ziemi i pokazał nam, jak grają w szachy. Teraz już wiem.”

Wydaje się, że większość reaguje na powstający styl gry Alpha-zero jako „grę obcych”, a nie jako „bardziej ludzką”.

Dlatego istnieje powód, by nie zgadzać się z powyższymi odpowiedziami, które mówią „tak”.


3
Twoja odpowiedź jest miejscami myląca i niedokładna. Zastosowanie MCTS nie jest zasadniczą różnicą, nie dlatego pokonał Sztokfisz. Mogli również korzystać z wyszukiwania alfa-beta, po prostu czuli, że MCTS działa lepiej dla nich. Głównymi elementami algorytmu AlphaZero są bardzo głęboka splotowa sieć neuronowa, uczenie się zbrojenia (tj. Sieć jest dostrajana przez grę własną) oraz wyszukiwanie drzewa (które jest MCTS, ale nie jest to konieczne). Nie ma w tym nic ręcznie, co mówi, że „jego styl zmienia się w kierunku trybu, w którym programiści go skuli”, jest niepoprawny.
IA Petr Harasimovic,

„W szachy chodzi o walkę między ludzkimi umysłami. To sprawia, że ​​jest ekscytujący. Szachy komputerowe są mechaniczne, suche i nijakie. Ruchy są oczywiście bardzo silne, ale nie ma stylu”. Czy ktoś przeprowadził dobrze przeprowadzony eksperyment w stylu Turinga z wieloma GMami grającymi anonimowego przeciwnika, którym może być człowiek lub komputer?

Jeśli uważasz, że mój punkt był taki, że MCTS jest kluczową różnicą (między Alpha-zero a Sztokfiszem) - brakuje mi mojego punktu. Chodziło mi o to, że ludzie, a nie algorytmy, decydowali o stylu gry Alpha-zero, decydowali o decyzji Alpha-zero. Chodzi mi o to, że te bardzo ludzkie wybory wydają się nadawać styl gry, który uderza zarówno GMów, jak i amatorów, jako zdecydowanie nie ludzkich.
user34445,


1
@ user34445 Właściwie uważam, że akapit nie ma żadnego sensu, próbowałem go zracjonalizować. Ludzie nie decydowali o stylu gry AlphaZero, zdecydowali o stylu uczenia się. Z pewnością nie narzucili mu swojego poglądu na to, jak grać w szachy.
IA Petr Harasimovic,

5

To niezwykle interesujący czas na życie.

Komputery szachowe od lat 70. były algorytmami wyszukiwania opartymi na drzewie minimaks przy użyciu przycinania alfa-beta. Programy te stawały się coraz silniejsze zarówno z powodu postępu w szybkości komputera i równoległości, jak i ulepszeń w funkcji oceny heurystycznej wykorzystywanej do przycinania gałęzi i wybierania węzłów liści. Ale ludzie od dawna zauważyli, jak materialistyczna i nudna jest gra komputerowa, i wiele osób (w tym ja) uważało, że niemożliwe jest zakodowanie „ludzkiej” intuicji w oprogramowaniu.

Ale widziałeś te gry?

AlphaZero prezentuje niewiarygodnie piękną grę, w tym kilka przykładów poświęcenia materialnego dla długoterminowej przewagi pozycyjnej. Przypomina to niektóre z najpiękniejszych gier od ludzkich mistrzów, ale także z niezrównaną techniczną dokładnością. To pierwszy przykład, jaki widziałem w życiu czegoś, co jest generowane komputerowo i ma również głębokie piękno .


Roszczenie Centaura:

Słyszałem, jak Garry mówił to wiele razy, ale to po prostu nieprawda. A przynajmniej nie będzie to prawdą z AlphaZero na scenie.

Wyobraź to sobie: istnieje kawałek worka, który ma 10 000 odpowiednich kontynuacji, gdzie 5000 z nich jest czysto taktycznych (ale w większości niezwiązanych ze sobą) i kolejne 5000, które są w większości pozycyjne (ale w większości niezwiązane). Jak człowiek mógł przesiać te wszystkie odmiany bez popełniania błędu? Jeśli AlphaZero może teraz spojrzeć na te wysoce kreatywne ruchy, jaki wkład mógłby wnieść człowiek?


Ostatnia Granica:

Pozostało jeszcze jedno miejsce, w którym brutalne obliczenia nadal będą bić głębokie sieci neuronowe: gry końcowe. Nie ma intuicji, która pokonałaby podstawę stołu. Ale zakończenia wymagające bazy tabel (ponieważ drzewo wyszukiwania nie może sięgać wystarczająco głęboko, aby obliczyć właściwy ruch) są dość rzadkie. I możesz po prostu podłączyć podstawę do AlphaZero, ale to zniszczyłoby czystość silnika samouka, prawda?


3

Ponieważ ludzie nie mają możliwości głębokiego przeszukiwania, jak tradycyjne komputerowe szachy (fritz, sztokfisz i in.), Tworzą „zasady strategiczne” lub reguły kciuka (kontrola centrum, rozwój, bezpieczeństwo króla) oraz koncepcje lub sztuczki, które można zastosować w wielu różnych sytuacje na różne sposoby, takie jak poświęcenie, gawrony połączone, para biskupów, konkretne zakończenia, np. jak zaatakować króla wieżą i pionkiem.

Myślę, że alfa zero niezależnie opracowało wiele takich pojęć (percepcji i pojęć), a także nauczyło się wielu nowych - ponieważ jego wiedza nie była wymagana do budowania na ludzkich funkcjach oceny i silnym wyszukiwaniu minmax, które zawsze zakłada, że ​​przeciwnik jest geniusz.

Oczywiście, takie zasady same w sobie są sprzeczne w niektórych sytuacjach, dlatego różne gry otwierające i pułapki są dokładnie badane - np. Nie rozwijaj królowej zbyt wcześnie.

Z drugiej strony ludzie zauważają również, że gdy stracisz jeden element (bez wymiany), osłabisz swoje siły, dlatego bardzo ostrożnie nie tracą elementu bez rekompensaty.

Myślę, że gra Alphazero uwolniła szachy komputerowe (i szachy ludzkie) od niewolniczego strachu przed utratą małego materiału i nadmiernego polegania na otwieraniu książek i wartości sztuk.

Gry Alphazero pokazują, że takie „strategiczne zasady”, jak kontrola centrum, rozwój, przestrzeń, inicjatywa są o wiele ważniejsze, jeśli przeciwnik jest niechlujny. Innymi słowy, „poświęcenie” nie jest tak naprawdę poświęceniem, lecz zamianą kawałka w celu uzyskania inicjatywy, pozycji, ukierunkowanego ruchu.

Alphago (nie zero) opierał się na ocenie człowieka, ale alphazero ustawia cały łańcuch oceny na „wyszukiwanie lub symulację” jako pojedynczy proces od końca do końca i oferuje zupełnie nowy sposób gry.

Jeśli się nad tym zastanowić, wielcy mistrzowie przeszłości, tacy jak Morphy, Fischer, Kasparow, zostali oklaskiwani za typowo tego rodzaju - intuicyjną - grę, w której nie ogranicza ich pisemna ocena, wykorzystując specjalne sytuacje, w których pojawić się. Myślę, że gry alfa zero mają taki czynnik „wow”.

Dlaczego sieci neuronowe. Podczas gdy programy komputerowe wykorzystujące reprezentację symboliczną i wyszukiwanie dyskretne mogą używać tylko „jednego” sposobu myślenia, sieci neuronowe mogą równolegle przetwarzać sytuacje z naprzemiennymi, sprzecznymi ocenami i przechodzić do bardziej wartościowego widoku w późniejszych warstwach.


2

Bardziej ludzki w tym sensie, że wykonywane przez niego ruchy mniej więcej pokrywają się z ludzkim podejściem: graj o długoterminową przewagę, ofiary pozycyjne, aktywność pionków. Widoczna zbieżność z ludzką wiedzą szachową i przyjętymi strategicznymi zasadami dopracowanymi na przestrzeni wieków (np. „Odkryła” wiele takich samych otworów). Jest to niezwykłe, biorąc pod uwagę fakt, że AlphaZero nie został zaszczepiony ludzką wiedzą szachową.

Ale podobieństwa kończą się tutaj. AlphaZero przenosi go na wyższy poziom i robi to lepiej, w sposób, w jaki ludzie nigdy nie pomyśleli. AlphaZero posiada zdolności „nadludzkie”, by zacytować artykuł: „AlphaZero osiągnął nadludzki poziom zabawy [...]” ( https://arxiv.org/pdf/1712.01815.pdf ). Ponadto nie ma słabości tkwiących u ludzi: problemy z koncentracją, strach, zmęczenie, uczucia, intuicja itp., Które ograniczają ludzi. A jego krzemowy mózg pozwala w razie potrzeby na kombinacje taktyczne przekraczające ludzkie możliwości.


2
Potem jest paradoks. Sztokfisz korzysta z ludzkiego doświadczenia; Alphazero nie. Ale alfa zero wydaje się bardziej ludzkie. Oznacza to, że być może nie zrobiliśmy z pokoleniem Stackfish bardzo dobrej pracy w destylacji naszych myśli
Philip Roe

1

Chcę podziękować wszystkim, którzy odpowiedzieli na to pytanie, często z subtelnością i wnikliwością. Wydaje mi się, że główna różnica w odpowiedziach polega na interpretacji słowa „człowiek”.

AlphaZero nie gra w ludzkie szachy w sensie niedopatrzeń i błędnych obliczeń, ale proces „myślenia” wydaje się w podwyższonej formie odpowiadać temu, co myślę o tym, co myślą najsilniejsi gracze. Dość szybko sporządzasz listę „ruchów kandydujących”, w które chciałbyś zagrać, a dla najsilniejszych graczy ta lista jest niesamowicie dokładna, nawet w ciągu jednej minuty gra w coś, co można uznać za rozsądnie rozsądne. Resztę czasu poświęca się pytaniu, które ruchy na tej liście naprawdę działają? Petrosian powiedział, że najbardziej poczuł się w formie, kiedy ruch, który ostatecznie wykonał, był tym, o którym po raz pierwszy pomyślał. Wszyscy wiemy, jak satysfakcjonujące jest to, że ruch, w którym najbardziej chcieliśmy grać, okazuje się taktyczny. Mogę odnosić się do algorytmu AlphaZero znacznie łatwiej niż do wyszukiwania AlphaBeta,

Najciekawsze wydaje się to, w jaki sposób maszyna była w stanie samodzielnie rozpoznać obiecujących kandydatów. Właśnie tam leży potencjał prawdziwej rewolucji. Zastanawiam się, czy jest to możliwe tylko w domenach takich jak szachy i gry, w których cele można jasno zdefiniować. Ale wydaje mi się uderzające, że AlphaZero wydaje się wyświetlać celową grę, ale Sztokfisz nie ma pojęcia, co się dzieje.


0

Z tego, jak rozumiem sieci neuronowe, prawdziwą zaletą A0 jest doskonała ocena pozycji na płytce. Ocena ta obejmuje zarówno krótkoterminową wiedzę taktyczną (która w pewnym sensie służy jako mnożnik liczby zbadanych pozycji), jak i lepszą ocenę wartości strategicznej.


1
Witamy w Chess SE! Czy możesz podać referencje, dlaczego uważasz, że sieci neuronowe działają w ten sposób?
Pablo S. Ocal,

0

Jedną rzeczą, która wydaje mi się, że cała dyskusja została pominięta, jest to, że A0 może grać w szachy, shogi i iść, wszystko bardzo dobrze i wszystko z samokształcenia. To jest o wiele bardziej ludzkie. Co więcej, w drodze ujawniło nowe pomysły najlepszym graczom (jak rozumiem). Inne silniki są bardzo specyficzne dla zadania, A0 wydaje się inaczej. Chciałbym zobaczyć, jak gra w szachy960.


1
Nie rozumiem, jak to odpowiada na pytanie.
SmallChess

-2

Nie sądzę, żeby w Alphie było coś „ludzkiego”. Po prostu używał znacznie mocniejszego sprzętu i grał w szachy wyższej jakości. Znalezione przez niego dobre ruchy otwierające (na przykład fianchetto king side z Bg2) są w pełni spowodowane symulacją książki otwierającej. Koncepcje, które zrobiły na mnie wrażenie i które sformułowałem w „The Secret of Chess”: http://davidsmerdon.com/?p=1970 , których Alpha używa po raz pierwszy wśród najlepszych silników, to zaawansowane dłuższe łańcuchy, na przykład d4 -e5-f6 łańcuch, który przebijał cały pionek w grze poświęconej Bg6, oraz środkowi twórcy zacofania, jak widać w grach francuskiej obrony między oboma silnikami. Obie koncepcje polegają na poszukiwaniu dogłębnych głębi i zapewne tutaj Alfie pomógł ogromny sprzęt. W przeciwnym razie nie widzę nic ludzkiego w tej grze. Trzeba przyznać, że wiele gier


5
Te dwa stwierdzenia są niepoprawne: 1) „Po prostu użył znacznie mocniejszego sprzętu” - Tak, użył znacznie silniejszego sprzętu niż Sztokfisz, ale to nie robi różnicy. Jest to zupełnie inne oprogramowanie, które wymaga silnego sprzętu. 2) „Dobre ruchy otwierające, które znajdzie, są w pełni spowodowane symulowaną książką otwierającą”. - Nie korzysta z żadnej książki o otwarciach.
IA Petr Harasimovic,

To właśnie robi różnicę: wykładniczo większy sprzęt Alpha. Każdy tester szachowy wie, że podwojenie prędkości zwiększa siłę szachów o około 70 elos, w zależności od oprogramowania. Różnica między 32 rdzeniami a 4 TPU, 1000-2000 rdzeni, to około 6 podwojeń. To by było na 420 elos. Tak więc, podczas gdy na tym sprzęcie osiągnął moc 100 elosów, w równych warunkach Alpha jest o około 300 elosów słabsza.
Lyudmil Tsvetkov

Oczywiście używa książki otwierającej, bez względu na to, co twierdzą. Alpha została przeszkolona w najlepszych grach GM. Staje się to bardzo wyraźne, jeśli zobaczy się wybór otwierający Alpha: dokładnie te otwory, które poleca nowoczesna teoria, a dokładnie te, w których szanse na wygraną są najlepsze. Nie grasz na fianchetto z Bg2 właśnie tak.
Lyudmil Tsvetkov

3
@Lyudmil, Google osiągnęło coś zadziwiającego w Alpha Zero. Nauczył się tych ruchów, grając przeciwko sobie, znając tylko zasady gry! Oskarżając zespół o oszustwo Alpha Zero, wcale nie zrozumiałeś ich osiągnięcia ani misji - przesuwają granice AI do przodu i jednym małym gestem po drodze pokonują wszystkie istniejące silniki szachowe i ludzki talent w popołudniowej pracy!
żagiel

1
@LyudmilTsvetkov Jesteś całkowicie niepoprawny. Alpha Zero (i jest to punkt, od niego) jest przeszkolony wtihout jakichkolwiek ludzkich gier. Poinformowano o zasadach, a następnie opracowano każdy aspekt gry w ciągu czterech godzin gry bez żadnych nowych danych zewnętrznych.
Maverick,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.