Oto szybka, brudna analiza oparta na bazie danych PGN „Million Base”. Zrobiłem to w pośpiechu, więc mogą być błędy w moim programowaniu lub logice. Nie używaj go do niczego zbyt poważnego. Aktualizacja - Uwaga: Właściwie właśnie zauważyłem, że popełniłem błąd w zestawie danych i ograniczyłem go do pierwszego miliona rekordów. Opublikuję aktualizację, gdy będę mieć trochę wolnego czasu, aby uruchomić ją ponownie w pełnym zakresie. Tymczasem liczby te powinny być jednak interesujące.
Uzyskiwanie danych:
Plik Million Base 1.74 uzyskałem z tego adresu URL , ponieważ witryna top-5000.nl wydaje się mieć 404 wartości, gdy faktycznie próbujesz ją pobrać. Plik zawiera nieco ponad 1 milion gier w formacie eksportowym PGN (to znaczy łatwym do przeanalizowania).
Niestety w ponad 60% gier brakowało informacji o ocenie (szukałem tagów „WhiteELO” i „BlackELO”), a jeszcze mniej miało oceny dla obu graczy. Ostatecznie zdecydowałem się na uzyskanie jak największej próbki i policzyłem ruchy gracza, jeśli jego ocena była znana, niezależnie od oceny innego gracza.
Proces:
Gry były analizowane jeden po drugim, a jeśli znana była ocena gracza, wszystkie ich ruchy w tej grze byłyby dodawane do sumy dla grupy ocen gracza. Zdecydowałem się podzielić oceny na grupy po 100, więc np. 1600 do 1699 było jedną grupą.
Ponieważ rzeczywistym tekstem ruchomym w PGN jest SAN, do liczenia ruchów użyłem następującego skrótu: ruchy Rycerza (N), Biskupa (B), Wieży (R), Królowej (Q) i Króla (K) zaczynają się od litery ich kawałka . Castling (OO i OOO) został liczony osobno, jako szczególny przypadek. Wszystkie pozostałe ruchy zostały policzone jako ruchy pionków bez dalszego badania.
Nie przeprowadzono czyszczenia danych. Nie podjęto próby zidentyfikowania wartości odstających i ich usunięcia (np. Wyjątkowo krótkie i długie gry itp.). Zachowałem, ale nie uwzględniłem w poniższej analizie, wyniki z ocen poniżej 1600 - wielkość próby dla tych gier była znacznie poniżej 100, co prowadziło do dużych różnic w wynikach. Surowe dane znajdują się na końcu tego postu.
Kilka wad informacji: w tej chwili zebrałem tylko bardzo podstawowe sumy i podałem średnie. Jestem prawie pewien, że ogólnie dane NIE są normalnie dystrybuowane, ale nie będę w stanie powiedzieć więcej bez faktycznego wyprowadzenia nieprzetworzonych danych i uruchomienia ich za pomocą programu statystycznego. Mogę to zrobić, jeśli jest zainteresowanie. W tej chwili oznacza to brak przedziałów ufności lub inne informacje na temat rozkładu liczb reprezentowanych przez te średnie. Nie sprawdziłem także, ile lat obejmuje zestaw danych - jeśli reprezentuje on wiele lat, może być korzystne podjęcie próby poprawienia ogólnej siły pola.
Niektóre trendy:
Słowo o ocenach graczy - najczęściej spotykane grupy ocen były w kolejności: 2400 do 2500, 2500 do 2600 i 2300 do 2400. Te grupy oceniały 72% zliczonych gier.
Patrząc na rzeczywiste wyniki, średnia długość gry była nieco niespodzianką:
Wszystkie grupy oceniające poniżej 2000 roku miały znacznie krótsze gry niż grupy wyższe. Można to dobrze wytłumaczyć możliwością, że grali silniejszymi przeciwnikami (patrz średnia ocena powyżej) i że zostali pokonani w mniejszej liczbie ruchów. Wydaje się, że jest to sprzeczne z nieco krótszymi grami rozgrywanymi przez grupę z najwyższą oceną, chociaż może to mieć wpływ na mniejszy rozmiar próby.
Stosunkowo duże różnice w średniej długości gry oznaczały, że podanie częstotliwości poruszania się danego elementu, a nie całkowitej liczby ruchów elementu, jest być może bardziej sprawiedliwym porównaniem. Obliczenie częstotliwości daje następujący wykres:
Wydaje się, że obecne są następujące trendy:
- Częstotliwość ruchów rycerza wydaje się nieznacznie obniżać wraz z oceną.
- Bishop przesuwa trend w dół do około 2000 r., A następnie powoli rozwija się.
- Wieże poruszają się gwałtownie w górę w przybliżeniu w tym samym punkcie i pozostają częstsze niż ruchy Bishopa w grze na wysokim poziomie.
- Ruchy pionków wydają się nieznacznie obniżać wraz ze wzrostem oceny. Dużym wyjątkiem jest najwyższa kategoria, od 2800 do 2900. To prowadzi nas do następnego punktu:
- Kategoria najwyższej oceny zawiera wartości odstające lub przeciwne trendy w wielu pomiarach. Można to wyjaśnić na różne sposoby - 1) wielkość próby jest dość niska przy 363, nie jest mała, ale obejmuje 10% kolejnej najmniejszej wielkości próby. 2) Ponieważ znajdują się na szczycie grup ocen, nigdy nie grają „silniejszych” przeciwników niż siebie samych. 3) Lub po prostu na tym poziomie, ich styl gry przekroczył poziomy poniżej. Domyślam się, że będzie to kombinacja 1) i 2).
- Różnice w ruchach królowej i ruchach roszady są bardzo małe, bez żadnych prawdziwych trendów, z wyjątkiem niewielkiego trendu w obu przypadkach.
- Częstotliwość ruchów króla ma jedne z największych różnic. Nie widać wyraźnego trendu i wydaje się zmieniać kierunek 3 lub 4 razy.
Dalsza analiza
Kilka pomysłów na przyszłe analizy:
- Podstawowe poprawki statystyczne: Uważam, że należy wykluczyć wyjątkowo krótkie i długie gry. Również rozkład rzeczywistych liczb może być bardzo wymowny.
- Dalszy podział analizy może również dać interesujące wyniki. Na przykład chciałbym wiedzieć, jak pasują częstotliwości dla czerni i bieli (czy są takie same, czy różne? Dlaczego?).
- Kategoryzacja według różnicy ocen może być również interesująca, czy gracze grający znacznie silniejszym przeciwnikiem (powiedzmy, 200 ocen powyżej) grają z różnymi częstotliwościami ruchu? Niestety wymaga to znajomości ELO obu graczy, co jest rzadkością w tym zestawie danych.
- Skłonność do krótkich i długich zamków może również różnić się w zależności od oceny.
- Statystyki promocji sztuk, niektóre lekkie analizy strukturalne (np. Występowanie podwójnych pionków, en passant, szpilek, widelców, pokazane przez ocenę) mogą być wnikliwe.
- Interesujące mogą być również „mapy cieplne” rozmieszczenia pionów na planszy, pokazane przez ocenę.
Zbiorcze dane w formacie CSV
Dla tych, którzy chcą bawić się danymi, nie krępuj się.
Zakres oceny, wielkość próby, średnia długość gry, średnia liczba pionków, średnia liczba ruchów rycerza, średnia liczba ruchów biskupa, średnia liczba ruchów wieży, średnia liczba ruchów królowej, średnia liczba ruchów króla, średnia roszada
1100 to 1200,4,28.500,7.000,4.000,4.000,6.500,3.750,2.750,0.500
1300 to 1400,16,34.125,9.250,6.813,5.000,4.438,4.563,3.188,0.875
1400 to 1500,35,33.800,9.400,6.114,5.514,4.514,4.057,3.400,0.800
1500 to 1600,61,33.607,8.705,7.459,4.984,4.443,4.033,3.148,0.836
1600 to 1700,163,33.153,9.227,6.485,5.110,4.699,3.969,2.816,0.847
1700 to 1800,301,31.811,8.894,6.223,5.402,4.468,3.734,2.296,0.794
1800 to 1900,307,34.251,9.537,6.642,5.577,4.889,4.039,2.759,0.808
1900 to 2000,450,35.551,9.731,6.778,5.451,5.444,4.442,2.871,0.833
2000 to 2100,3958,38.731,10.302,7.095,6.072,6.242,4.668,3.481,0.871
2100 to 2200,11217,38.905,10.501,7.116,6.086,6.245,4.629,3.445,0.884
2200 to 2300,50848,39.446,10.595,7.167,6.174,6.420,4.717,3.484,0.889
2300 to 2400,79322,39.248,10.551,7.141,6.141,6.469,4.653,3.402,0.891
2400 to 2500,111867,38.394,10.398,7.013,6.086,6.294,4.542,3.168,0.893
2500 to 2600,92225,38.308,10.396,6.972,6.082,6.344,4.515,3.104,0.896
2600 to 2700,33193,39.340,10.565,7.061,6.295,6.579,4.630,3.318,0.891
2700 to 2800,4805,40.938,10.945,7.221,6.725,6.930,4.726,3.494,0.895
2800 to 2900,363,38.865,11.311,6.879,6.284,6.160,4.391,2.983,0.857