EDYCJA: Od czasu opublikowania tego posta śledzę tutaj dodatkowy post .
Podsumowanie poniższego tekstu: Pracuję nad modelem i próbowałem regresji liniowej, transformacji Boxa Coxa i GAM, ale nie zrobiłem dużego postępu
Korzystając z tej opcji R
, pracuję obecnie nad modelem do przewidywania sukcesu mniejszych graczy baseballowych na poziomie ligi głównej (MLB). Zmienna zależna, ofensywna kariera wygrywa nad wymianą (oWAR), jest wskaźnikiem sukcesu na poziomie MLB i jest mierzona jako suma ofensywnych wkładów w każdą grę, w którą gracz jest zaangażowany w trakcie swojej kariery (szczegóły tutaj - http : //www.fangraphs.com/library/misc/war/). Zmienne niezależne to zmienne ofensywne drugorzędnych lig z punktacją Z dla statystyk, które są uważane za ważne predyktory sukcesu na głównym poziomie ligi, w tym wiek (gracze z większym sukcesem w młodszym wieku są zwykle lepszymi perspektywami), wskaźnik wykonania [SOPct ], wskaźnik marszu [BBrate] i skorygowana produkcja (globalna miara ofensywnej produkcji). Dodatkowo, ponieważ istnieje wiele poziomów mniejszych lig, dołączyłem zmienne obojętne dla poziomu gry w mniejszej lidze (Double A, High A, Low A, Rookie i Short Season z Triple A [najwyższy poziom przed głównymi ligami] jako zmienna referencyjna]). Uwaga: Przeskalowałem WAR, aby była zmienną od 0 do 1.
Zmienny wykres rozrzutu wygląda następująco:
Dla porównania zmienna zależna oWAR ma następujący wykres:
Zacząłem od regresji liniowej oWAR = B1zAge + B2zSOPct + B3zBBPct + B4zAdjProd + B5DoubleA + B6HighA + B7LowA + B8Rookie + B9ShortSeason
i uzyskałem następujące wykresy diagnostyczne:
Istnieją wyraźne problemy z brakiem bezstronności reszt i brakiem losowej zmienności. Ponadto reszty nie są normalne. Wyniki regresji pokazano poniżej:
Postępując zgodnie z radą z poprzedniego wątku , bezskutecznie próbowałem transformacji Box-Coxa. Następnie spróbowałem GAM z linkiem do dziennika i otrzymałem te wykresy:
Oryginalny
Nowy wykres diagnostyczny
Wygląda na to, że splajny pomogły dopasować dane, ale wykresy diagnostyczne nadal wykazują słabe dopasowanie. EDYCJA: Myślałem, że początkowo patrzyłem na wartości resztkowe w stosunku do dopasowanych, ale byłem niepoprawny. Wykres, który został pierwotnie pokazany, jest oznaczony jako Oryginalny (powyżej), a wykres, który przesłałem później, jest oznaczony jako Nowy Wykres Diagnostyczny (również powyżej)
The modelu wzrosła
ale wyniki uzyskane przez polecenie gam.check(myregression, k.rep = 1000)
nie są tak obiecujące.
Czy ktoś może zasugerować kolejny krok dla tego modelu? Z przyjemnością udzielę wszelkich innych informacji, które Twoim zdaniem mogą być przydatne do zrozumienia dotychczasowych postępów. Dzięki za wszelką pomoc, którą możesz udzielić.