Zdaję sobie sprawę z rodzaju regularyzacji typu LASSO, grzbietu i siatki elastycznej w modelach regresji liniowej.

Pytanie:

Czy ten (lub podobny) rodzaj oszacowania podlegającego sankcji można zastosować do modelowania ARIMA (z niepustą częścią MA)?

Przy budowaniu modeli ARIMA wydaje się, że zwykle bierze się pod uwagę wstępnie wybraną kolejność maksymalnego opóźnienia ( $p_{max}$ , $q_{max}$ ), a następnie wybrać optymalną kolejność $p \leqslant p_{max}$ i $q \leqslant q_{max}$ np. zminimalizowanie AIC lub AICc. Ale czy zamiast tego można zastosować regularyzację?

Moje dalsze pytania to:

Czy możemy zawrzeć wszystkie terminy do ( , $p_{max}$ $q_{max}$ ), ale ukarać wielkość współczynników (potencjalnie aż do zera)? Czy to miałoby sens?
Jeśli tak, czy zostało to zaimplementowane w R lub innym oprogramowaniu? Jeśli nie, na czym polegał problem?

Nieco powiązany post można znaleźć tutaj .

— Richard Hardy
źródło

+1 za bardzo dobre pytanie. Ponieważ P, Q są wartościami dyskretnymi, bardziej efektywne może być przeszukiwanie siatki w celu znalezienia optymalnej kolejności P, Q?

— prezenter

Cieszę się, że ci się podobało! Tak, wyszukiwanie siatki jest jedną z opcji w ramach, które nazywam „zwykłą”. Można przeszukiwać siatkę możliwych kombinacji

. Jest to jednak nadal część „zwykłych ram”. Alternatywnie, jestem zainteresowany utrzymywaniem wszystkich opóźnień, ale karaniem wielkości współczynników.

(p, q)

$(p,q)$

(0, 0)

$(0,0)$

(p_{m a x}, q_{m a x})

$(p_{max},q_{max})$

— Richard Hardy

columbia.edu/~sn2294/papers/forecast.pdf Podobno LASSO działa lepiej, ponieważ można pominąć pewne opóźnienia zamiast ustawiać maksimum. To samo może zrobić AIC, ale wtedy staje się drogie obliczeniowo.

— Cagdas Ozgenc

@CagdasOzgenc, przejrzałem gazetę, ale wydaje się, że nie dotyczy ona regularyzacji stosowanej w modelach ARIMA (chociaż wspomina modele ARMA w kontekście kryteriów informacyjnych). Czy mógłbyś wskazać, która część artykułu dotyczy moich pytań?

— Richard Hardy

5.3 tabela zawiera modele ARMAX. Wyniki dotyczą modeli ARMA.

— Cagdas Ozgenc

Odpowiedź na pytanie 1.

Chen i Chan „Wybór podzestawu ARMA za pomocą adaptacyjnego Lasso” (2011) * wykorzystują obejście, aby uniknąć obliczeniowo wymaganego oszacowania maksymalnego prawdopodobieństwa. Powołując się na papier, oni

zaproponować znalezienie optymalnego podzbiorowego modelu ARMA poprzez dopasowanie adaptacyjnej regresji Lasso szeregów czasowych na własnych opóźnieniach i reszt, które są uzyskiwane z dopasowania długiej autoregresji do $y_t$ $y_t$ s. <...> [W] łagodnych warunkach regularności proponowana metoda osiąga właściwości wyroczni, a mianowicie identyfikuje poprawny model podzestawu ARMA z prawdopodobieństwem zmierzającym do jednego, gdy wielkość próbki wzrasta do nieskończoności, a <...> estymatory niezerowych współczynników są asymptotycznie normalne z rozkładem granicznym takim samym, jak w przypadku, gdy współczynniki zerowe są znane z góry.

Opcjonalnie sugerują oszacowanie maksymalnego prawdopodobieństwa i diagnostykę modelu dla wybranych podzbiorów modeli ARMA.

Wilms i in. „Rzadka identyfikacja i oszacowanie wielowymiarowych wektorowych autoregresyjnych średnich ruchomych” (2017) robi jeszcze więcej, niż prosiłem. Zamiast jednowymiarowego modelu ARIMA, biorą wektor ARMA (VARMA) w wysokich wymiarach i używają $L_1$ karę estymacji i tyle wybór zamówienia. Przedstawiają algorytm szacowania i opracowują pewne asymptotyczne wyniki.

W szczególności stosują dwuetapową procedurę. Rozważ model VARMA który należy oszacować, ale rzędy opóźnień i są nieznane.

y_{t} = \sum_{l = 1}^{p} Φ_{l} y_{t - l} + \sum_{m = 1}^{q} Θ_{m} ε_{t - m} + ε_{t}

$y_t = \sum_{l=1}^p \Phi_l y_{t-l} + \sum_{m=1}^q \Theta_m \varepsilon_{t-m} + \varepsilon_t$

p

$p$

q

$q$

W etapie 1 aproksymują model VARMA za pomocą modelu VAR wyższego rzędu i szacują go za pomocą estymatora hierarchicznego VAR, który nakłada opartą na opóźnieniu hierarchiczną karę grupowo-lasso na parametry autoregresyjne.
(Kolejność opóźnień jest ustawiona na . Równania modelu są szacowane łącznie, a norma Frobeniusa błędów zmniejszają hierarchicznej grupowego lasso kary na współczynniki regresji). Uzyskać one resztki być stosowane jako zastępcze dla prawdziwych błędów w etapie 2. $\lfloor 1.5\sqrt{T} \rfloor$ $||y-\hat y||_2^F$
$\hat\varepsilon := y - \hat y$
W etapie 2, to oszacowanie modelu varX gdzie X oznacza opóźnione pozostałości z etapu 1. To znaczy, że model MINIC VARMA ale używa oszacowano reszty zamiast rzeczywistych błędów, co pozwala na zastosowanie tej samej estymatora (hierarchiczna grupy-lasso) znowu tak jak w etapie 1. ( i
$y_{t} = \sum_{l = 1}^{\hat{p}} Φ_{l} y_{t - l} + \sum_{m = 1}^{\hat{q}} Θ_{m} {\hat{ε}}_{t - m} + u_{t},$ $y_t = \sum_{l=1}^{\hat p} \Phi_l y_{t-l} + \sum_{m=1}^{\hat q} \Theta_m \hat\varepsilon_{t-m} + u_t,$
$\hat p$ $\hat q$ $\lfloor 1.5\sqrt{T} \rfloor$

Podejście Wilmsa i in. jest zaimplementowany w pakiecie R „bigtime” .

Bibliografia

Chen, K. i Chan, KS (2011). Podzbiór wyboru ARiMR za pomocą adaptacyjnego Lasso. Statystyka i jej interfejs , 4 (2), 197-205.
Wilms, I., Basu, S., Bien, J., & Matteson, DS (2017). Rzadka identyfikacja i oszacowanie wielowymiarowych wektorowych autoRegresywnych średnich kroczących. nadruk arXiv arXiv: 1707.09208.

^{* Dzięki @hejseb za link.}

— Richard Hardy
źródło

Ten dokument roboczy jest bardzo świeży, opublikowany wczoraj na arXiv.

— Richard Hardy

Czy jest jakaś implementacja w Pythonie lub R?

— David Masip

@DavidMasip, zobacz zaktualizowany post dotyczący implementacji R.

— Richard Hardy,

Regularyzacja modeli ARIMA

Odpowiedź na pytanie 1.