Poniżej kilka bardzo prostych modeli. Obaj mają co najmniej jeden niedobór, ale może zapewnią coś, na czym mogliby się oprzeć. Drugi model faktycznie nie (całkiem) odnosi się do scenariusza PO (patrz uwagi poniżej), ale zostawiam go na wypadek, gdyby pomógł w jakiś sposób.
Model 1 : wariant modelu Bradleya-Terry'ego
Załóżmy, że interesuje nas przede wszystkim przewidywanie, czy jedna drużyna pokona drugą w oparciu o graczy z każdej drużyny. Możemy po prostu zapisać, czy Drużyna 1 z graczami pokonuje Drużynę 2 z graczami ( k , ℓ ) dla każdej gry, ignorując końcowy wynik. Z pewnością powoduje to wyrzucenie niektórych informacji, ale w wielu przypadkach wciąż dostarcza wielu informacji.(i,j)(k,ℓ)
Model ten następnie
l o g i t ( P (Drużyna 1 bije Drużynę 2))= αja+ αjot- αk- αℓ.
Oznacza to, że dla każdego gracza mamy parametr „powinowactwa”, który wpływa na to, jak bardzo ten gracz zwiększa szansę na zwycięstwo swojej drużyny. Zdefiniuj „siłę” gracza przez . Następnie model ten potwierdza, że
P ( Drużyna 1 bije Drużynę 2 ) = s i s jsja= eαja
P(Team 1 beats Team 2)=sisjsisj+sksℓ.
Jest tutaj bardzo ładna symetria, ponieważ nie ma znaczenia, w jaki sposób kodowana jest odpowiedź, o ile jest zgodna z predyktorami. Oznacza to, że również
logit(P(Team 2 beats Team 1))=αk+αℓ−αi−αj.
Można to łatwo dopasować jako regresję logistyczną z predyktorami, które są wskaźnikami (po jednym dla każdego gracza) przyjmującymi wartość jeśli gracz i jest w Drużynie 1 w danej grze, - 1, jeśli jest w Drużynie 2 i 0, jeśli nie uczestniczyć w tej grze.+1ja- 10
Z tego mamy również naturalny ranking dla graczy. Im większa wartość (lub s ), tym większa szansa na zwiększenie szansy wygranej przez jej zespół. Możemy więc po prostu uszeregować graczy według ich szacunkowych współczynników. (Należy zauważyć, że parametry powinowactwa są identyfikowalne tylko do wspólnego przesunięcia. Dlatego typowe jest ustalenie α 1 = 0, aby umożliwić identyfikację modelu).αsα1= 0
Model 2 : Niezależna ocena
Uwaga : po ponownym przeczytaniu pytania OP oczywiste jest, że poniższe modele są nieodpowiednie dla jego konfiguracji. W szczególności OP jest zainteresowany grą, która kończy się po zdobyciu określonej liczby punktów przez jedną lub drugą drużynę. Poniższe modele są bardziej odpowiednie dla gier, które mają określony czas trwania. Można wprowadzić modyfikacje, aby lepiej pasowały do ram PO, ale opracowanie wymaga osobnej odpowiedzi.
Teraz chcemy śledzić wyniki. Załóżmy, że rozsądnym przybliżeniem jest, że każda drużyna zdobywa punkty niezależnie od siebie z liczbą punktów zdobytych w dowolnym przedziale niezależnie od przedziału rozłącznego. Następnie liczbę punktów uzyskanych przez każdą drużynę można modelować jako losową zmienną Poissona.
W ten sposób możemy skonfigurować do Poissona GLM taki sposób, że wynik jakiejś drużyny składające się z graczy oraz j w danej grze jest
log ( ľ ) = γ i + γ jjajot
log( μ ) = γja+ γjot
Zauważ, że ten model ignoruje faktyczne pojedynki między drużynami, koncentrując się wyłącznie na punktacji.
To nie mają ciekawe połączenie zmodyfikowanego modelu Bradley-Terry. Zdefiniuj i załóżmy, że rozgrywana jest gra „nagłej śmierci”, w której wygrywa pierwsza drużyna, która zdobędzie punkty. Jeśli drużyna 1 ma graczy ( i ,σja= eγja a Drużyna 2 ma graczy ( k , ℓ ) , to
P ( Drużyna 1 pokonuje Drużynę 2 w nagłej śmierci ) = σ i σ j( i , j )( k , ℓ )
Zatem średni wskaźnik punktacji zawodników jest równoważny sformułowaniu parametru „siła” Modelu 1.
P (Drużyna 1 pokonuje Drużynę 2 w nagłej śmierci)= σjaσjotσjaσjot+ σkσℓ.
Możemy rozważyć ten model bardziej skomplikowane przez posiadające „przestępstwo” powinowactwo i „obrona” powinowactwo δ i dla każdego gracza, tak że jeśli zespołu 1 z ( i , j ) odgrywa zespołu 2 z ( k , £ -l ) , a następnie
ρjaδja( i , j )( k , ℓ )
log( μ1) = ρja+ ρjot- δk- δℓ
log( μ2)) = ρk+ ρℓ- δja- δjot
Punktacja jest nadal niezależna w tym modelu, ale teraz istnieje interakcja między graczami w każdej drużynie, która wpływa na wynik. Gracze mogą być również uszeregowani według ich współczynników powinowactwa.
Model 2 (i jego warianty) pozwala również przewidzieć wynik końcowy.
Rozszerzenia : Jednym z użytecznych sposobów rozszerzenia obu modeli jest włączenie kolejności, w której pozytywne wskaźniki odpowiadają zespołowi „gospodarzom”, a ujemne zespołom „gospodarzy”. Dodanie do modeli terminu przechwytującego może być interpretowane jako „przewaga na boisku”. Inne rozszerzenia mogą obejmować włączenie szansy powiązań w Modelu 1 (w rzeczywistości jest to już możliwe w Modelu 2).
Uwaga dodatkowa : Przynajmniej jedna z sondaży komputerowych ( Petera Wolfe'a ) użytych do Bowl Championship Series w amerykańskim futbolu uniwersyteckim używa (standardowego) modelu Bradleya-Terry'ego do sporządzania swoich rankingów.