Dlaczego kryterium informacyjne (nieskorygowane

9

W modelach szeregów czasowych, takich jak ARMA-GARCH, do wyboru odpowiedniego opóźnienia lub kolejności modelu stosowane są różne kryteria informacyjne, takie jak AIC, BIC, SIC itp.

Moje pytanie jest bardzo proste, dlaczego nie używamy skorygowanego aby wybrać odpowiedni model? Możemy wybrać model, który prowadzi do wyższej wartości skorygowanego . Ponieważ zarówno skorygowane i kryterium informacyjne karają za dodatkową liczbę regresorów w modelu, gdzie poprzednio karano a później karano wartość prawdopodobieństwa. $R^2$ $R^2$ $R^2$ $R^2$

— Neeraj
źródło

Być może czegoś brakuje w odpowiedziach (poniżej), ale kwadraty R, a także skorygowane kwadraty R są odpowiednie dla stosunkowo ograniczonej klasy modeli szacowanych OLS, podczas gdy AIC, BIC itp. Są odpowiednie dla szerszej klasy uogólnionych liniowych modele oszacowane, być może, z ML lub wariantem.

— Mike Hunter,

12

Twierdziłbym, że przynajmniej przy omawianiu modeli liniowych (takich jak modele AR) skorygowane i AIC nie różnią się tak bardzo. $R^2$

Zastanów się, czy powinno być uwzględnione w Jest to równoważne z porównaniem Modele gdzie . Mówimy, że jest prawdziwym modelem, jeśli $X_2$

y = \underset{(n \times K_{1})}{X_{1}} β_{1} + \underset{(n \times K_{2})}{X_{2}} β_{2} + ϵ

$y=\underset{(n\times K_1)}{X_1}\beta_1+\underset{(n\times K_2)}{X_2}\beta_2+\epsilon$

\begin{array}{rcl} M_{1} & : & y = X_{1} β_{1} + u \\ M_{2} & : & y = X_{1} β_{1} + X_{2} β_{2} + u, \end{array}

$\begin{eqnarray*} \mathcal{M}_1&:&y=X_1\beta_1+u\\ \mathcal{M}_2&:&y=X_1\beta_1+X_2\beta_2+u, \end{eqnarray*}$

E (u | X_{1}, X_{2}) = 0

$E(u|X_1,X_2)=0$

M_{2}

$\mathcal{M}_2$

β_{2} \neq 0

$\beta_2\neq0$ . Zauważ, że

M_{1} \subset M_{2}

$\mathcal{M}_1\subset\mathcal{M}_2$ . Modele są zatem zagnieżdżone . Procedura wyboru modelu

\hat{M}

$\widehat{\mathcal{M}}$ jest regułą zależną od danych, która wybiera najbardziej prawdopodobny z kilku modeli.

Mówimy $\widehat{\mathcal{M}}$ jest spójny, jeśli

\begin{array}{rcl} lim_{n \to \infty} P (\hat{M} = M_{1} | M_{1}) & = & 1 \\ lim_{n \to \infty} P (\hat{M} = M_{2} | M_{2}) & = & 1 \end{array}

$\begin{eqnarray*} \lim_{n\rightarrow\infty}P\bigl(\widehat{\mathcal{M}}=\mathcal{M}_1|\mathcal{M}_1\bigr)&=&1\\ \lim_{n\rightarrow\infty}P\bigl(\widehat{\mathcal{M}}=\mathcal{M}_2|\mathcal{M}_2\bigr)&=&1 \end{eqnarray*}$

Rozważ skorygowane . To znaczy wybierz jeśli . Ponieważ monotonicznie zmniejsza się , procedura ta jest równoważna zminimalizowaniu . To z kolei jest równoważne zminimalizowaniu . W przypadku wystarczająco dużego , to ostatnie można zapisać jako gdzie $R^2$ $\mathcal{M}_1$ $\bar{R}^2_1>\bar{R}^2_2$ $\bar{R}^2$ $s^2$ $s^2$ $\log(s^2)$ $n$

\begin{array}{rcl} \log (s^{2}) & = & \log ({\hat{σ}}^{2} \frac{n}{n - K}) \\ = & \log ({\hat{σ}}^{2}) + \log (1 + \frac{K}{n - K}) \\ \approx & \log ({\hat{σ}}^{2}) + \frac{K}{n - K} \\ \approx & \log ({\hat{σ}}^{2}) + \frac{K}{n}, \end{array}

$\begin{eqnarray*} \log(s^2)&=&\log\left(\widehat{\sigma}^2\frac{n}{n-K}\right) \\ &=&\log(\widehat{\sigma}^2)+\log\left(1+\frac{K}{n-K}\right) \\ &\approx&\log(\widehat{\sigma}^2)+\frac{K}{n-K} \\ &\approx&\log(\widehat{\sigma}^2)+\frac{K}{n}, \end{eqnarray*}$

{\hat{σ}}^{2}

$\widehat{\sigma}^2$ jest estymatorem ML wariancji błędu. Wybór modelu na podstawie jest zatem asymptotycznie równoważny wybraniu modelu z najmniejszym . Ta procedura jest niespójna.

{\bar{R}}^{2}

$\bar{R}^2$

\log ({\hat{σ}}^{2}) + K / n

$\log(\widehat{\sigma}^2)+K/n$

Twierdzenie :

lim_{n \to \infty} P ({\bar{R}}_{1}^{2} > {\bar{R}}_{2}^{2} | M_{1}) < 1

$\lim_{n\rightarrow\infty}P\bigl(\bar{R}^2_1>\bar{R}^2_2|\mathcal{M}_1\bigr)<1$

Dowód : gdzie następuje linia od drugiej do ostatniej, ponieważ statystyka jest statystyką LR w przypadku regresji liniowej, która następuje po asymptozie dystrybucja zerowa. CO BYŁO DO OKAZANIA

\begin{array}{rcl} P ({\bar{R}}_{1}^{2} > {\bar{R}}_{2}^{2} | M_{1}) & \approx & P (\log (s_{1}^{2}) < \log (s_{2}^{2}) | M_{1}) \\ = & P (n \log (s_{1}^{2}) < n \log (s_{2}^{2}) | M_{1}) \\ \approx & P (n \log ({\hat{σ}}_{1}^{2}) + K_{1} < n \log ({\hat{σ}}_{2}^{2}) + K_{1} + K_{2} | M_{1}) \\ = & P (n [\log ({\hat{σ}}_{1}^{2}) - \log ({\hat{σ}}_{2}^{2})] < K_{2} | M_{1}) \\ \to & P (χ_{K_{2}}^{2} < K_{2}) \\ < & 1, \end{array}

$\begin{eqnarray*} P\bigl(\bar{R}^2_1>\bar{R}^2_2|\mathcal{M}_1\bigr)&\approx&P\bigl(\log(s^2_1)<\log(s^2_2)|\mathcal{M}_1\bigr) \\ &=&P\bigl(n\log(s^2_1)<n\log(s^2_2)|\mathcal{M}_1\bigr) \\ &\approx&P(n\log(\widehat{\sigma}^2_1)+K_1<n\log(\widehat{\sigma}^2_2)+K_1+K_2|\mathcal{M}_1) \\ &=&P(n[\log(\widehat{\sigma}^2_1)-\log(\widehat{\sigma}^2_2)]<K_2|\mathcal{M}_1) \\ &\rightarrow&P(\chi^2_{K_2}<K_2) \\ &<&1, \end{eqnarray*}$

χ_{K_{2}}^{2}

$\chi^2_{K_2}$

Rozważmy teraz kryterium Akaike, Tak więc AIC wymienia również redukcję SSR sugerowaną przez dodatkowe regresory w stosunku do „kary” , ”który wskazuje w przeciwnym kierunku. Dlatego wybierz jeśli , w przeciwnym razie wybierz .

A I C = \log ({\hat{σ}}^{2}) + 2 \frac{K}{n}

$AIC=\log(\widehat{\sigma}^2)+2\frac{K}{n}$

M_{1}

$\mathcal{M}_1$

A I C_{1} < A I C_{2}

$AIC_1<AIC_2$

M_{2}

$\mathcal{M}_2$

Można zauważyć, że jest również niespójny, kontynuując powyższy dowód w wierszu trzecim z . Skorygowane i wybierają zatem „duży” model z prawdopodobieństwem dodatnim, nawet jeśli jest prawdziwym modelem. $AIC$ $P(n\log(\widehat{\sigma}^2_1)+2K_1<n\log(\widehat{\sigma}^2_2)+2(K_1+K_2)|\mathcal{M}_1)$ $R^2$ $AIC$ $\mathcal{M}_2$ $\mathcal{M}_1$

Ponieważ kara za złożoność w AIC jest nieco większa niż za skorygowane , może być jednak mniej podatna na przebarwienie. I ma inne miłe właściwości (minimalizujące rozbieżność KL do prawdziwego modelu, jeśli nie ma go w rozważanym zestawie modeli), które nie są omówione w moim poście. $R^2$

— Christoph Hanck
źródło

1

Świetna odpowiedź: niezbyt ciężka, ale wciąż dokładna! Gdyby był tam wczoraj, nie wysłałbym mojego.

— Richard Hardy

A co ze sprawą ARMA-GARCH? Co zrobiliby przy wyborze warunków amung MA i GARCH?

R_{a d j}^{2}

$R^2_{adj}$

— Zachary Blumenfeld,

Nie odważyłbym się powiedzieć. Jak wyjaśnisz, nie jest nawet jasne, co R2 oznacza dla dopasowania takiego modelu.

— Christoph Hanck

5

Kara w nie daje dobrych właściwości pod względem wyboru modelu, jakie posiada AIC lub BIC. Kara w wystarczy, aby uczynić obiektywnym estymatorem populacji gdy żaden regresor nie należy do modelu (zgodnie z postami Dave'a Gilesa na blogu „In What Sense” czy „Skorygowany” R-kwadrat jest bezstronny? ” i „ Więcej na temat właściwości „Skorygowanego” współczynnika determinacji ” ); jednak nie jest optymalnym wyborem modelu. $R^2_{adj}$ $R^2_{adj}$ $R^2_{adj}$ $R^2$ $R^2_{adj}$

(Może istnieć dowód sprzeczności: jeśli AIC jest optymalny w jednym sensie, a BIC jest optymalny w innym, a nie jest równoważny z żadnym z nich, to nie jest optymalny w żadnym z nich tych dwóch zmysłów). $R^2_{adj}$ $R^2_{adj}$

— Richard Hardy
źródło

Ile parametrów GARCH muszę dodać, zanim wzrośnie ? :) .... Uważam, że podobny argument można by założyć o błędach skorelowanych (jak w modelu MA), model GLS nie zmniejsza sumy kwadratów reszt względem zwykłych najmniejszych kwadratów. Zarówno w MA, jak i GARCH, parametry (nie zmienne objaśniające, dla których dostosowuje się ) są dodawane do modelu. Parametry MA i GARCH nie są dodawane w celu zmniejszenia , lecz są dodawane w celu zwiększenia prawdopodobieństwa i / lub zmniejszenia ważonej sumy kwadratów reszt, aby odzwierciedlić brak terminów błędu.

R^{2}

$R^2$

R^{2} a d j

$R^2{adj}$

S S R

$SSR$

— Zachary Blumenfeld,

Czy to faktycznie dotyczy oryginalnego postu lub mojej odpowiedzi? W każdym razie zgadzam się z twoimi punktami.

— Richard Hardy

Chciałem zwrócić uwagę, że nie może być tak naprawdę używany do wybierania składników GARCH (i prawdopodobnie również elementów MA), ponieważ jest oparty na ułamku stosunku do które są stronniczymi estymatorami wariancji, gdy warunki błędu nie są iid. (jest to tylko szczególny przypadek uprzedzenia, o którym mówiłeś). W przypadku ARMA-GARCH nigdy nie wybrałbyś modelu z komponentami GARCH, nawet jeśli w danych występowała zmienność stochastyczna, ponieważ nie zwiększa ona . Zasadniczo zgadzam się z tobą, próbując podać konkretne przykłady.

R_{a d j}^{2}

$R^2_{adj}$

S S T - S S R

$SST-SSR$

S S T

$SST$

R^{2}

$R^2$

— Zachary Blumenfeld