Korzystam z modeli regresji LOESS w R i chcę porównać wyniki 12 różnych modeli o różnych wielkościach próbek. Potrafię opisać rzeczywiste modele bardziej szczegółowo, jeśli pomoże to w udzieleniu odpowiedzi na pytanie.
Oto przykładowe rozmiary:
Fastballs vs RHH 2008-09: 2002
Fastballs vs LHH 2008-09: 2209
Fastballs vs RHH 2010: 527
Fastballs vs LHH 2010: 449
Changeups vs RHH 2008-09: 365
Changeups vs LHH 2008-09: 824
Changeups vs RHH 2010: 201
Changeups vs LHH 2010: 330
Curveballs vs RHH 2008-09: 488
Curveballs vs LHH 2008-09: 483
Curveballs vs RHH 2010: 213
Curveballs vs LHH 2010: 162
Model regresji LOESS jest dopasowany do powierzchni, gdzie położenie X i położenie Y każdego boiska do baseballu służy do przewidywania sw, prawdopodobieństwa uderzenia wahadłowego. Chciałbym jednak porównać wszystkie 12 modeli, ale ustawienie tego samego zakresu (tj. Zakres = 0,5) przyniesie różne wyniki, ponieważ istnieje tak szeroki zakres wielkości próbek.
Moje podstawowe pytanie brzmi: w jaki sposób określasz rozpiętość swojego modelu? Wyższy zakres bardziej wygładza dopasowanie, podczas gdy niższy zakres przechwytuje więcej trendów, ale wprowadza szum statystyczny, jeśli jest za mało danych. Używam wyższej rozpiętości dla mniejszych próbek i niższej rozpiętości dla większych próbek.
Co powinienem zrobić? Jaka jest dobra zasada przy ustawianiu zakresu dla modeli regresji LOESS w R? Z góry dziękuję!