Nie mam na myśli konkretnego przykładu ani zadania. Po prostu jestem nowy w używaniu splajnów b i chciałem lepiej zrozumieć tę funkcję w kontekście regresji.
Załóżmy, że chcemy ocenić związek między zmienną odpowiedzi a niektórymi predyktorami . Predyktory obejmują niektóre zmienne numeryczne, a także niektóre jakościowe.
Powiedzmy, że po dopasowaniu modelu regresji znacząca jest jedna ze zmiennych numerycznych, np. . Logicznym krokiem jest następnie ocena, czy wielomiany wyższego rzędu, np .: x_1 ^ 2 i x_1 ^ 3 są wymagane, aby odpowiednio wyjaśnić związek bez nadmiernego dopasowania.
Moje pytania to:
W którym momencie wybrałeś między splajnami b lub prostym wielomianem wyższego rzędu. np. w R:
y ~ poly(x1,3) + x2 + x3
vs
y ~ bs(x1,3) + x2 + x3
W jaki sposób możesz użyć wykresów, aby poinformować o swoim wyborze między tymi dwoma i co się stanie, jeśli nie jest to tak naprawdę jasne z wykresów (np. Z powodu ogromnej ilości punktów danych)
Jak oceniłbyś dwustronne warunki interakcji między i powiedzmy
Jak powyższe zmiany dotyczą różnych typów modeli
Czy zastanowiłbyś się, czy nigdy nie stosować wielomianów wysokiego rzędu i zawsze pasujących do B-splajnów i karać za wysoką elastyczność?
mgcv
, dlaczego nie zastosować (uogólnionych) modeli addytywnych. Wybór gładkości jest automatyczny, a metody wnioskowania są dobrze rozwinięte.