Pracuję nad modelem kosztów predykcyjnych, w którym wiek pacjenta (liczba całkowita mierzona w latach) jest jedną ze zmiennych predykcyjnych. Widoczny jest silny nieliniowy związek między wiekiem a ryzykiem hospitalizacji:
Rozważam spline wygładzenie regresji wygładzającej dla wieku pacjenta. Według The Elements of Statistics Learning (Hastie i in., 2009, s. 151) optymalne rozmieszczenie węzłów to jeden węzeł na unikalną wartość wieku członka.
Biorąc pod uwagę, że zachowuję wiek jako liczbę całkowitą, czy karany wygładzony splajn jest równoważny z uruchomieniem regresji grzbietu lub lassa ze 101 odrębnymi zmiennymi wskaźnika wieku, po jednej dla wartości wieku znalezionej w zbiorze danych (minus jedna dla odniesienia)? Następnie unika się nadmiernej parametryzacji, ponieważ współczynniki na każdym wskaźniku wieku są zmniejszane do zera.