Wybór splajnu df w ogólnym addytywnym problemie modelu Poissona

9

Dopasowuję niektóre dane szeregów czasowych za pomocą ogólnego modelu addytywnego Poissona za pomocą SAS PROC GAM. Mówiąc ogólnie, mam wbudowaną uogólnioną procedurę walidacji krzyżowej, która generuje co najmniej przyzwoity „punkt początkowy” dla mojego pojedynczego splajnu, który jest nieliniową funkcją czasu wraz z jednym terminem parametrycznym (tym, który I tak naprawdę jestem zainteresowany).

Do tej pory działało dość płynnie, z wyjątkiem jednego z moich zestawów danych. W tym zbiorze danych jest 132 obserwacji, a GCV sugeruje splajn 128 stopni swobody. To wydaje się ... złe. Bardzo źle. Co ważniejsze, nie jest wcale stabilny. Wypróbowałem drugie podejście, używając czegoś w rodzaju kryteriów „zmiany szacunku”, aby przestać dodawać stopnie swobody, gdy szacunek parametru parametrycznego przestaje się zmieniać, ponieważ dlaczego nadal dodawać kontrolę, jeśli nic się nie różni?

Problem polega na tym, że szacunki wcale nie są stabilne. Wypróbowałem następujące stopnie swobody i, jak widać, parametryczny termin odbija się dziko:

DF: Parametric Estimate:
1   -0.76903
2   -0.56308
3   -0.47103
4   -0.43631
5   -0.33108
6   -0.1495
7    0.0743
8    0.33459
9    0.62413
10   0.92161
15   1.88763
20   1.98869
30   2.5223
40-60 had convergence issues
70   7.5497
80   7.22267
90   6.71618
100  5.83808
110  4.61436
128  1.32347

Nie mam żadnej intuicji na temat tego, czego powinienem użyć w odniesieniu do df dla tego konkretnego bitu danych. Jakieś inne pomysły na wybór df? Czy powinienem patrzeć na znaczenie splajnu?

Po dokładniejszym spojrzeniu między df = 10 i df = 15, wygląda na to, że df = 12 jest najbliższym oszacowaniem wygenerowanym przez 128 i nadal znajduje się w zakresie „rozsądnych stopni swobody”. Wraz z terminem liniowym, punktem przecięcia i pojedynczym terminem parametrycznym, wydaje się, że jest to dość mocno nasycony model. Czy uzasadnione jest użycie 12?

Jako druga aktualizacja, zmiana wygładzania z spline(t)na loess(t)powoduje znacznie lepiej zachowujące się szacunki df - czy powinienem po prostu przejść na wygładzanie lessów?

— Fomite
źródło

Czy w zestawie danych ze 132 obserwacjami jest powiązany termin zliczania i przesunięcia, co oznacza, że jest to właściwie zestaw danych ważonych z wieloma więcej niż 132 obserwacjami? Ze względu na średnią zależność wariancji w RV Poissona, duże liczby mogą prowadzić do właściwości „wyboru modelu”, które są niekorzystne ze względu na „dużą wielkość próby”.

— AdamO

Zestaw danych zawiera 132 tygodnie danych, modelowanych jako liczba = warunki modelu + log (osobiście) jako przesunięcie. Liczby nigdy nie są szczególnie wysokie - ale istnieje spora liczba zer.

— Fomite

5

Jak wspomina @ M.Berk, wiadomo, że GCV jest niewystarczający, przede wszystkim dlatego, że kryterium to słabo karze przeuczenie, co prowadzi do bardzo płytkiego minimum w kryterium GCV jako funkcji , parametru gładkości. Ponieważ minimum jest bardzo płytkie, optymalne GCV może wystąpić w szerokim zakresie szacunków . Ponadto kryterium GCV, jako funkcja ma wiele wielokrotności, co może prowadzić do opisanej niestabilności. Simon Wood (2011) ma dobrą ilustrację tego na rycinie 1. $\lambda$ $\lambda$ $\lambda$

Wood (2011) pokazuje również, że AICc nie zapewnia dużo dodatkowych korzyści w porównaniu z GCV dla baz od niskiego do średniego stopnia wykorzystywanych do płynnych funkcji.

W przeciwieństwie do tego wybór gładkości REML (a także ML) silniej karze przeuczenie niż GCV, a tym samym ma znacznie wyraźniej zdefiniowane optimum. Prowadzi to do bardziej stabilnych szacunków i znacznie zmniejszonego ryzyka niedomagania. $\lambda$

Wood (2011) opisuje procedury szacowania REML i ML, które są zarówno szybkie, jak i stabilne, co pokazuje ulepszenie w stosunku do istniejących podejść REML (ML) pod względem konwergencji. Idee te są dostępne w Simona mgcv pakiet dla R .

Ponieważ Wood (2011) stoi za paywallem, dołączam kopię podobnego obrazu (wyników AICc nie pokazano tutaj) pobranego z zestawu slajdów Simona, dostępnych na jego stronie internetowej , na temat metod wyboru gładkości {PDF}. Liczba ze slajdu 10 pokazano poniżej

wprowadź opis zdjęcia tutaj

Dwa rzędy odzwierciedlają symulowane dane, w których występuje odpowiednio silny (górny) lub brak (dolny) sygnał. Najbardziej lewe panele pokazują realizację każdego modelu. Pozostałe panele pokazują, w jaki sposób kryteria GCV (środkowa kolumna) i REML różnią się w zależności od dla 10 zestawów danych symulowanych z modelu rzeczywistego. W przypadku górnego rzędu zwróć uwagę na płaski GCV na lewo od optimum. Wykresy dywaników na tych panelach pokazują optymalną dla każdej z 10 realizacji. Kryterium REML ma znacznie wyraźniejszą optymalizację i mniejszą wariancję w wybranych wartościach . $\lambda$ $\lambda$ $\lambda$

Dlatego sugerowałbym podejście zalecane przez Simona Wooda dla jego pakietu mgcv , mianowicie wybranie jako wymiaru podstawowego czegoś, co jest wystarczająco duże, aby uwzględnić elastyczność przewidywaną w relacji między , ale nie tak duży. Następnie dopasuj model za pomocą wyboru gładkości REML. Jeśli wybrany model stopni swobody jest zbliżony do wymiaru określonego początkowo, zwiększ wymiar bazowy i zamontuj ponownie. $y = f(x) + \varepsilon$

Jak wspomniano zarówno @ M.Berk, jak i @BrendenDufault, przy ustalaniu podstawy splajnu może być wymagany stopień subiektywności, jeśli chodzi o wybór odpowiedniego wymiaru podstawy, z którego pasuje GAM. Ale wybór gładkości REML okazał się dość solidny w moim doświadczeniu w szeregu aplikacji GAM z wykorzystaniem metod Wooda.

Wood, SN (2011) Szybka stabilna ograniczona ocena maksymalnego prawdopodobieństwa i prawdopodobieństwa krańcowego semiparametrycznych uogólnionych modeli liniowych . J. Royal Statistics Society B 73 (część 1), 3--6.

— Gavin Simpson
źródło

@EpiGrad Welcome. Przepraszam, że nie trafiłem wtedy na pytanie; w ciągu ostatniego roku lub dwóch borykałem się z sytuacjami podobnymi do twojej i wielokrotnie czytałem na ten temat artykuły Simona Wooda i wielokrotnie selekcjonowałem wybrane artykuły. Cieszę się, że udało mi się przypomnieć kilka szczegółów, które pomogą.

— Gavin Simpson

3

Myślę, że twój najlepszy zakład leży poza algorytmami wygładzania; rozważ modelowe parsimony.

Nawiązujesz do tego, ale uważam, że musi to stać się twoim głównym kryterium wyboru. Zadaj sobie pytanie, ile „zakrętów” wydaje się uzasadnionych na podstawie etiologii / przyczynowości modelowanych procesów. Wykreśl pasowane splajny za pomocą plots=components(clm)stwierdzenia i wizualnie oceń dopasowanie. Być może wysokie sploty DF opowiadają podobną historię jak niskie sploty DF, z tym wyjątkiem, że są głośniejsze. W takim przypadku wybierz niskie dopasowanie DF.

W końcu modele GAM mają być eksploracyjne.

Korzystając z opcji gcv , zastanawiam się nad jej wydajnością w warunkach Poissona, rzadkich danych itp. Może właśnie tutaj należy przeprowadzić badanie symulacyjne.

— Brenden Dufault
źródło

2

Napisałem następującą odpowiedź, a potem zrozumiałem, że nie mam pojęcia, czy ma ona zastosowanie do regresji Poissona, z którą nie mam doświadczenia. Być może ludzie mogą odpowiedzieć na to za pomocą niektórych komentarzy.

Osobiście podoba mi się rada BW Silvermana (1985): „Niektóre aspekty wygładzania splajnu w dopasowaniu krzywej regresji nieparametrycznej (z dyskusją)”. (Dostępne tutaj bez subskrypcji ): wypróbuj szereg parametrów wygładzania i wybierz ten, który jest najbardziej atrakcyjny wizualnie.

Jak słusznie wskazuje również w tym samym artykule, chociaż subiektywne podejście może być preferowane, nadal istnieje potrzeba metod automatycznych. Jednak GCV jest ogólnie złym wyborem, ponieważ ma tendencję do wygładzania. Patrz na przykład Hurvich i in. (1998) „Wybór parametru wygładzania w regresji nieparametrycznej przy użyciu ulepszonego kryterium informacji podobnych” (dostępny tutaj bez subskrypcji ). W tym samym artykule proponują nowe kryteria, które mogą złagodzić twój problem, skorygowany AIC, który obejmuje małą korektę wielkości próby. Opis AICc na Wikipedii może być łatwiejszy do zrozumienia niż papier. Artykuł w Wikipedii zawiera również kilka dobrych rad Burnham & Anderson (tj. Używaj AICc zamiast AIC niezależnie od wielkości próbki).

Podsumowując, moje sugestie byłyby w kolejności preferencji:

Wybierz parametr wygładzania ręcznie za pomocą oceny wizualnej
Użyj skorygowanego AIC (AICc) zamiast GCV
Użyj standardowego AIC

— M. Berk
źródło