Mierzenie regresji do średniej w trafianiu do domu

11

Każdy, kto podąży za baseballem, prawdopodobnie słyszał o nieoczekiwanym występie Jose Bautisty w Toronto typu MVP. W ciągu czterech poprzednich lat osiągnął około 15 przebiegów u siebie w sezonie. W zeszłym roku osiągnął 54 lata, a liczba ta przekroczyła zaledwie 12 graczy w historii baseballu.

W 2010 roku wypłacono mu 2,4 miliona, a on prosi zespół o 10,5 miliona na rok 2011. Oferują 7,6 miliona. Jeśli uda mu się to powtórzyć w 2011 roku, z łatwością będzie wart jednej z tych kwot. Ale jakie są szanse, że się powtórzy? Jak trudno możemy oczekiwać, że cofnie się do średniej? Jak wiele z jego występów możemy oczekiwać od przypadku? Czego możemy się spodziewać po jego skorygowanych wartościach regresji do średniej? Jak to wypracować?

Bawiłem się bazą danych baseballu Lahman i wyciągnąłem zapytanie, które zwraca sumy dla wszystkich graczy z poprzednich pięciu sezonów, którzy mieli co najmniej 50 nietoperzy na sezon.

Tabela wygląda następująco (zauważ Jose Bautista w wierszu 10)

     first     last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1    Bobby    Abreu      15      16      20      15      20
2   Garret Anderson      17      16      15      13       2
3  Bronson   Arroyo       2       1       1       0       1
4  Garrett   Atkins      29      25      21       9       1
5     Brad   Ausmus       2       3       3       1       0
6     Jeff    Baker       5       4      12       4       4
7      Rod  Barajas      11       4      11      19      17
8     Josh     Bard       9       5       1       6       3
9    Jason Bartlett       2       5       1      14       4
10    Jose Bautista      16      15      15      13      54

a pełny wynik (232 wiersze) jest dostępny tutaj .

Naprawdę nie wiem od czego zacząć. Czy ktoś może skierować mnie we właściwym kierunku? Szczególnie przydatna byłaby odpowiednia teoria i polecenia R.

Dziękuję uprzejmie

Tommy

Uwaga: przykład jest nieco wymyślony. Ucieczki z domu zdecydowanie nie są najlepszym wskaźnikiem wartości gracza, a sumy u siebie nie uwzględniają różnej liczby szans na sezon, że pałkarz ma szansę trafić do domu (wyglądy płyt). Nie odzwierciedla to również faktu, że niektórzy gracze grają na bardziej sprzyjających stadionach i że średnie wyniki u siebie w lidze zmieniają się z roku na rok. Itd. Itd. Jeśli potrafię uchwycić teorię leżącą u podstaw regresji do średniej, mogę ją zastosować w bardziej odpowiednich miarach niż HR.

r regression modeling

— TMOD
źródło

2

Baseball jest ulubionym źródłem wielu statystyk amerykańskich, dlatego wyszukiwanie w Google (/ Scholar) przyniesie kilka istotnych artykułów, np. Morrison i Schmittlein (1981) jstor.org/stable/2630890 . Zostawię to komuś bardziej zaznajomionemu zarówno z baseballem, jak i R., aby odpowiedzieć na twoje pytanie.

— onestop

1

Proponuję również zapoznać się z pracą JC Bradbury'ego i jego bloga Sabernomics, sabernomics.com/sabernomics . Jego książka na temat mierzenia wartości gracza prawdopodobnie wniknie w to, jakie cechy przewidują przyszłą produktywność.

— Andy W

2

Podany problem jest trochę jak problem odstający , ale nie w normalny sposób myśli się o odstających. Aby uwzględnić niesamowity wynik (tj. Wartość odstającą), potrzebny byłby „rozkład próbkowania” z ciężkim ogonem (wynik Jose znacznie przekraczający 3 standardowe odchylenia od jego średniej z poprzednich danych), więc może to pomóc lepiej dopasować dane i uwzględnij to w prognozach.

— probabilityislogic

Jeśli weźmiesz pod uwagę prymitywny skrót oprócz wszystkich bardziej wyrafinowanych komentarzy pojawiających się tutaj, istnieje Test Dixona na wartości odstające, który możesz wykonać na próbce tak małej jak 4. Zobacz cee.vt.edu/ewr/environmental/teach/smprimer / outlier /…

— rolando2

3

Myślę, że zdecydowanie istnieje skurcz bayesowski lub wcześniejsza korekta, która mogłaby pomóc w przewidywaniu, ale możesz również rozważyć inny hals ...

Przejrzyj graczy z historii, nie tylko ostatnich kilku lat, którzy przeżyli sezony przełomowe po kilku głównych zawodach (dramatyczne wzrosty, być może 2x) i zobacz, jak im poszło w następnym roku. Możliwe jest, że prawdopodobieństwo utrzymania wydajności jest właściwym predyktorem.

Istnieje wiele sposobów spojrzenia na ten problem, ale jak powiedział mpiktas, będziesz potrzebować więcej danych. Jeśli chcesz poradzić sobie z ostatnimi danymi, musisz spojrzeć na ogólne statystyki ligi, miotaczy, z którymi ma do czynienia, to złożony problem.

A potem jest tylko rozważanie własnych danych Bautisty. Tak, to był jego najlepszy rok, ale po raz pierwszy od 2007 roku miał ponad 350 AB (569). Możesz rozważyć konwersję procentowego wzrostu wydajności.

— Jan
źródło

3

Państwo może dopasować model do tych danych i sam się przypuszczenia, że konto dla regresji do średniej za pomocą mieszanych (wielopoziomowych) modeli. Prognozy z takich modeli uwzględniają regresję do średniej. Nawet nie wiedząc prawie o baseballu, nie znalazłem wyników, w które byłem wyjątkowo wiarygodny, ponieważ, jak pan mówi, model naprawdę musi brać pod uwagę inne czynniki, takie jak wygląd płyty.

Myślę, że model mieszany z efektami Poissona byłby bardziej odpowiedni niż liniowy model mieszany, ponieważ liczba biegów w domu jest liczbą. Patrząc na dostarczone dane , histogram hrpokazuje, że jest mocno wypaczony, co sugeruje, że liniowy model mieszany nie będzie działał dobrze i zawiera dość dużą liczbę zer, z godziną przekształcenia logarytmu lub bez niego.

Oto kod używający lmerfunkcji z pakietu lme4 . Po utworzeniu zmiennej ID w celu identyfikacji każdego gracza i przekształceniu danych do formatu „długiego”, jak wskazał mpiktas w swojej odpowiedzi (zrobiłem to w Stata, ponieważ nie jestem dobry w zarządzaniu danymi w R, ale możesz to zrobić w pakiet arkuszy kalkulacyjnych):

Year.c <- Year - 2008   # centering y eases computation and interpretation
(M1 <- lmer(HR ~ Year.c + (Year.c|ID), data=baseball.long, family=poisson(log), nAGQ=5))

To pasuje do modelu z łączem logarytmicznym, dającym wykładniczą zależność wskaźnika trafień w zależności od roku, co może się różnić w zależności od gracza. Możliwe są inne funkcje łącza, chociaż łącze tożsamości dało błąd z powodu ujemnie dopasowanych wartości. Łącze sqrt działało jednak ok i ma niższe BIC i AIC niż model z łączem logu, więc może być lepiej dopasowane. Prognozy dotyczące wskaźnika trafień w 2011 r. Są wrażliwe na wybraną funkcję linku, szczególnie dla graczy takich jak Bautista, których wskaźnik trafień ostatnio bardzo się zmienił.

Obawiam się, że nie udało mi się wyciągnąć takich prognoz lme4. Jestem bardziej zaznajomiony ze Statą, co sprawia, że bardzo łatwo uzyskać prognozy dla obserwacji z brakującymi wartościami wyniku, chociaż xtmelogit nie wydaje się oferować żadnego wyboru funkcji łącza innej niż log, co dało prognozę 50 dla Bautisty home biegnie w 2011 roku. Jak powiedziałem, nie wydaje mi się to aż tak wiarygodne. Byłbym wdzięczny, że ktoś mógłby pokazać, jak wygenerować prognozy na 2011 r. Na podstawie powyższych lmermodeli.

Ciekawy może być również model autoregresyjny, taki jak AR (1) dla błędów na poziomie gracza, ale nie wiem, jak połączyć taką strukturę z mieszanym modelem Poissona.

— jeden przystanek
źródło

używając funkcji stopu z przekształcenia pakietu, konwersja do długiego formatu to jedna linia w R, stop (dane, id = 1: 2).

— mpiktas 21.01.11

Interesującym rozszerzeniem / alternatywą jest dopasowanie modelu hierarchicznego z rozkładem próbkowania Possion z parametrem częstotliwości próbkowania (1 stawka na rok), ale z rozkładem próbkowania Cauchy'ego dla parametru częstości (zamiast mieszanki normalnej lub normalnej). Rozkład Cauchy'ego pozwoli na wystąpienie zdarzenia ekstremalnego (poprzez próbkowanie parametru dużej szybkości). Przypadkiem pośrednim (między normalnym a Cauchy'ego) jest rozkład t. (Z Cauchy'ego łatwiej jest pobrać próbkę, ponieważ można użyć odwrotnej metody CDF).

— probabilityislogic

2

Potrzebujesz dodatkowych danych o graczach i ich cechach w czasie, w którym masz dane o biegach domowych. W pierwszym kroku dodaj zmienne w czasie cechy, takie jak wiek graczy lub doświadczenie. Następnie możesz użyć modelu danych HLM lub panelu. Będziesz musiał przygotować dane w postaci:

    First Last  Year HR Experience Age
1.  Bobby Abreu 2005 15     6      26

Najprostszym modelem byłby wtedy (funkcja lme pochodzi z pakietu nlme )

lme(HR~Experience,random=~Experience|Year,data=your_data)

Ten model będzie w dużym stopniu opierał się na założeniu, że numer prowadzony u każdego gracza zależy tylko od doświadczenia, z pewną zmiennością. Prawdopodobnie nie będzie to bardzo dokładne, ale przynajmniej poczujesz, jak mało prawdopodobne są liczby Jose Bautisty w porównaniu do przeciętnego gracza. Ten model można ulepszyć, dodając cechy innych graczy.

— mpiktas
źródło

Nie powiedziałbym, że @TMOD potrzebuje więcej danych, tylko że prognozy prawdopodobnie będą bardziej dokładne, jeśli @TMOD ma więcej danych. W pytaniu jest wystarczająco dużo informacji, aby wygenerować prognozę.

— probabilityislogic

@probabilityislogic, tak, istnieje wystarczająca ilość informacji, aby wygenerować prognozę, ale wtedy model będzie przechwytywał tylko.

— mpiktas

niekoniecznie, do tych danych można dopasować model AR (1) lub AR (2)

— probabilityislogic

@probabilityislogic, ah tak, masz rację.

— mpiktas

2

Możesz sprawdzić The Book Blog.

Tom Tango i inni autorzy „The Book: Playing the Percentages in Baseball” są prawdopodobnie najlepszymi źródłami sabermetrii na rynku. W szczególności uwielbiają regres do średniej. Wymyślili system prognozowania zaprojektowany jako najbardziej podstawowy akceptowalny system (Marcel) i opiera się on prawie wyłącznie na regresji do średniej.

Z góry myślę, że jedną z metod byłoby wykorzystanie takiej prognozy do oszacowania prawdziwego talentu, a następnie znalezienie odpowiedniego rozkładu wokół tego średniego talentu. Gdy to zrobisz, każdy wygląd płytki będzie podobny do próby Bernoulliego, więc rozkład dwumianowy może zająć ci resztę drogi.

— Michael McGowan
źródło

1

FYI, od 2011 do 2014 roku, trafił 43, 27, 28 i 35.

Jest to dość zbliżone do jego średniej z 32 gier na poziomie 32 (która oczywiście obejmuje te wartości) i około 1 SD poniżej 54 w 2010 roku.

Wygląda jak regresja do średniej w akcji: Ekstremalna grupa zbudowana przez wykorzystanie hałaśliwych przedmiotów (w tym przypadku 1) odbiegających od grupy przez przypadek.

http://www.baseball-reference.com/players/b/bautijo02.shtml

— tim
źródło