Każdy, kto podąży za baseballem, prawdopodobnie słyszał o nieoczekiwanym występie Jose Bautisty w Toronto typu MVP. W ciągu czterech poprzednich lat osiągnął około 15 przebiegów u siebie w sezonie. W zeszłym roku osiągnął 54 lata, a liczba ta przekroczyła zaledwie 12 graczy w historii baseballu.
W 2010 roku wypłacono mu 2,4 miliona, a on prosi zespół o 10,5 miliona na rok 2011. Oferują 7,6 miliona. Jeśli uda mu się to powtórzyć w 2011 roku, z łatwością będzie wart jednej z tych kwot. Ale jakie są szanse, że się powtórzy? Jak trudno możemy oczekiwać, że cofnie się do średniej? Jak wiele z jego występów możemy oczekiwać od przypadku? Czego możemy się spodziewać po jego skorygowanych wartościach regresji do średniej? Jak to wypracować?
Bawiłem się bazą danych baseballu Lahman i wyciągnąłem zapytanie, które zwraca sumy dla wszystkich graczy z poprzednich pięciu sezonów, którzy mieli co najmniej 50 nietoperzy na sezon.
Tabela wygląda następująco (zauważ Jose Bautista w wierszu 10)
first last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1 Bobby Abreu 15 16 20 15 20
2 Garret Anderson 17 16 15 13 2
3 Bronson Arroyo 2 1 1 0 1
4 Garrett Atkins 29 25 21 9 1
5 Brad Ausmus 2 3 3 1 0
6 Jeff Baker 5 4 12 4 4
7 Rod Barajas 11 4 11 19 17
8 Josh Bard 9 5 1 6 3
9 Jason Bartlett 2 5 1 14 4
10 Jose Bautista 16 15 15 13 54
a pełny wynik (232 wiersze) jest dostępny tutaj .
Naprawdę nie wiem od czego zacząć. Czy ktoś może skierować mnie we właściwym kierunku? Szczególnie przydatna byłaby odpowiednia teoria i polecenia R.
Dziękuję uprzejmie
Tommy
Uwaga: przykład jest nieco wymyślony. Ucieczki z domu zdecydowanie nie są najlepszym wskaźnikiem wartości gracza, a sumy u siebie nie uwzględniają różnej liczby szans na sezon, że pałkarz ma szansę trafić do domu (wyglądy płyt). Nie odzwierciedla to również faktu, że niektórzy gracze grają na bardziej sprzyjających stadionach i że średnie wyniki u siebie w lidze zmieniają się z roku na rok. Itd. Itd. Jeśli potrafię uchwycić teorię leżącą u podstaw regresji do średniej, mogę ją zastosować w bardziej odpowiednich miarach niż HR.