Jak różne są splajny sześcienne ograniczone i splajny karane?


11

Dużo czytam o używaniu splajnów w różnych problemach z regresją. Niektóre książki (np. Bogato sparametryzowane modele liniowe Hodgesa ) zalecają splajnowane splajny. Inne (np. Strategie modelowania regresji Harrella ) wybierają ograniczone splajny sześcienne.

Jak różne są one w praktyce? Czy często uzyskiwałbyś zasadniczo odmienne wyniki od korzystania z jednego lub drugiego? Czy jedno lub drugie ma szczególne zalety?

Odpowiedzi:


9

Z mojej lektury wynika, że ​​dwie koncepcje, o które prosisz nas do porównania, są zupełnie różnymi zwierzętami i wymagałyby porównania przypominającego jabłka i pomarańcze. To sprawia, że ​​wiele twoich pytań jest nieco kontrowersyjnych - idealnie (zakładając, że można zapisać karę za poruszanie się w dół na podstawie RCS w wymaganej formie), użyłbyś karanego modelu splajnu z ograniczoną regresją sześcienną.

Ograniczone splajny sześcienne

Ograniczony splajn sześcienny (lub naturalny splajn) to podstawa splajnu zbudowana z częściowych funkcji wielomianu sześciennego, które płynnie łączą się w niektórych wcześniej określonych miejscach lub węzłach. To, co odróżnia ograniczony splajn sześcienny od splajnu sześciennego, polega na tym, że na ograniczoną wersję nakładane są dodatkowe ograniczenia, tak że splajn jest liniowy przed pierwszym węzłem i po ostatnim węźle. Odbywa się to w celu poprawy wydajności splajnu w ogonachX.

Wybór modelu za pomocą RCS zazwyczaj obejmuje wybór liczby węzłów i ich lokalizacji, przy czym to pierwsze decyduje o tym, jak falujący lub złożony jest wynikowy splajn. O ile nie zostaną podjęte dalsze kroki w celu uregulowania szacunkowych współczynników podczas dopasowywania modelu, liczba węzłów bezpośrednio kontroluje złożoność splajnu.

Oznacza to, że użytkownik ma pewne problemy do przezwyciężenia przy szacowaniu modelu zawierającego jeden lub więcej terminów RCS:

  1. Ile węzłów użyć ?,
  2. Gdzie umieścić te węzły w ciągu X?
  3. Jak porównać modele o różnej liczbie węzłów?

Same warunki RCS wymagają interwencji użytkownika w celu rozwiązania tych problemów.

Karane splajny

Karane splajny regresji (sensu Hodges) tylko dla ich własnego 3. problemu walki , ale umożliwiają obejście problemu 1 . Chodzi tutaj o to, jak również o rozszerzenie bazyX, i na razie załóżmy, że jest to podstawa splajnu sześciennego, tworzysz również matrycę kary za poruszenie. Wiggliness mierzy się za pomocą pewnej pochodnej oszacowanego splajnu, przy czym typową pochodną jest druga pochodna, a sama kara reprezentuje kwadratową drugą pochodną zintegrowaną w zakresieX. Kara ta może być zapisana w formie kwadratowej jako

βTSβ

gdzie jest macierzą kar, a to współczynniki modelu. Następnie wartość współczynnika znajdują maksymalizacji karane wiarogodności log ceriterionSβLp

Lp=LλβTSβ

gdzie jest logarytmicznym prawdopodobieństwem modelu, a jest parametrem gładkości, który kontroluje, jak silnie karać kręty splajn.Lλ

Ponieważ karane prawdopodobieństwo logarytmiczne można ocenić pod względem współczynników modelu, skuteczne dopasowanie tego modelu staje się problemem w znalezieniu optymalnej wartości λ podczas aktualizacji współczynników podczas wyszukiwania tego optymalnego λ.

λmożna wybrać przy użyciu walidacji krzyżowej, uogólnionej walidacji krzyżowej (GCV) lub kryteriów krańcowego prawdopodobieństwa lub ograniczonego krańcowego prawdopodobieństwa. Te dwa ostatnie skutecznie przekształcają model splajnu jako model efektów mieszanych (idealnie gładkie części podstawy stają się efektami stałymi, a poruszające się części podstawy są efektami losowymi, a parametr gładkości jest odwrotnie związany z warunkiem wariancji efektów losowych ), co Hodges rozważa w swojej książce.

Dlaczego rozwiązuje to problem liczby węzłów do użycia? Cóż, tylko tak to robi. To rozwiązuje problem niewymagania węzła w każdym unikalnym punkcie danych (wygładzanie splajnu), ale nadal musisz wybrać, ile węzłów lub funkcji bazowych chcesz użyć. Ponieważ jednak kara zmniejsza współczynniki, których można uniknąć, wybierając tak duży wymiar podstawowy, jaki Twoim zdaniem jest potrzebny, aby zawierać prawdziwą funkcję lub jej przybliżenie, a następnie pozwalasz kontrolować karę, jak ostatecznie oszacowany splajn ostatecznie polega na tym, że dodatkowa potencjalna kruchość dostępna w podstawie jest usuwana lub kontrolowana przez karę.

Porównanie

Splajnowane (regresja) splajny i RCS to zupełnie inne pojęcia. Nic nie stoi na przeszkodzie, aby stworzyć bazę RCS i związaną z nią karę w postaci kwadratowej, a następnie oszacować współczynniki splajnu, korzystając z pomysłów z modelu splajnu regresji z karą.

RCS to tylko jeden rodzaj podstawy, za pomocą której można utworzyć podstawę splajnu, a splajnowe regresje regresyjne są jednym ze sposobów oszacowania modelu zawierającego jeden lub więcej splajnów z powiązanymi karami za poruszanie się.

Czy możemy uniknąć problemów 1., 2. i 3.?

Tak, do pewnego stopnia, na bazie cienkiego splajnu (TPS). Baza TPS ma tyle funkcji bazowych, ile unikatowych wartości danych wX. Wood (2003) wykazał, że można utworzyć podstawę splajnu regresji cienkiej płyty (TPRS), korzystając z eigendekompozycji funkcji podstawowych TPS i zachowując tylko pierwsząknajwiększe powiedzenie. Nadal musisz określićk, liczba podstawowych funkcji, których chcesz użyć, ale wybór jest ogólnie oparty na tym, jak ostrożnie spodziewasz się dopasowanej funkcji i ile uderzeń obliczeniowych chcesz przyjąć. Nie ma też potrzeby określania lokalizacji węzłów, a kara zmniejsza współczynniki, więc unika się problemu wyboru modelu, ponieważ masz tylko jeden model karany, a nie wiele niezakontalizowanych z różną liczbą węzłów.

P-splajny

Aby tylko skomplikować sprawę, istnieje rodzaj podstawy splajnu znany jako P-splajn (Eilers i Marks, 1996)), gdzie P.często jest interpretowany jako „ukarany”. Splajny P są podstawą B-splajn z karą różnicową nakładaną bezpośrednio na współczynniki modelu. W typowym zastosowaniu kara P-splajn karze kwadratowe różnice między sąsiednimi współczynnikami modelu, co z kolei karze kręcenie. Splajny P są bardzo łatwe w konfiguracji i dają rzadką macierz kar, co czyni je bardzo podatnymi na oszacowanie warunków splajnu w modelach Bayesian opartych na MCMC (Wood, 2017).

Bibliografia

Eilers, PHC i BD Marks. 1996. Elastyczne wygładzanie z wypustami i karami. Stat. Sci.

Wood, SN 2003. Cienkie wypukłości regresji płytowej. JR Stat. Soc. Seria B Stat. Methodol. 65: 95–114. doi: 10.1111 / 1467-9868.00374

Wood, SN 2017. Uogólnione modele addytywne: wprowadzenie do R, wydanie drugie, prasa CRC.


4
+6, doskonałe leczenie. Przypomnij mi za kilka dni, jeśli zapomnę, i dam za to nagrodę.
gung - Przywróć Monikę

1
Dzięki za to!
Peter Flom

Nagroda ??????
kjetil b halvorsen
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.