Różne definicje AIC

12

Z Wikipedii istnieje definicja Kryterium Informacyjnego Akaike (AIC) jako , gdzie jest liczbą parametrów, a jest prawdopodobieństwem modelu. $AIC = 2k -2 \log L$ $k$ $\log L$

Jednak nasze ekonometria zauważa na szanowanym uniwersytecie, że . Tutaj to oszacowana wariancja błędów w modelu ARMA, a to liczba obserwacji w zestawie danych szeregów czasowych. $AIC = \log (\hat{\sigma}^2) + \frac{2 \cdot k}{T}$ $\hat{\sigma}^2$ $T$

Czy ta ostatnia definicja jest równoważna pierwszej, ale po prostu dostrojona dla modeli ARMA? Czy istnieje jakiś konflikt między tymi dwiema definicjami?

— pir
źródło

3

Dla przypomnienia: kryterium liczby pojedynczej, kryterium liczby mnogiej. (Odpowiednio zredagowane.)

— Nick Cox,

15

Wzór, który zacytowałeś w swoich notatkach, nie jest dokładnie AIC.

AIC wynosi . $-2\log\mathcal{L}+2k$

Podam tutaj zarys przybliżonego wyprowadzenia, który wystarczająco jasno wyjaśnia, co się dzieje.

Jeśli masz model z niezależnymi błędami normalnymi o stałej wariancji,

L \propto σ^{- n} e^{- \frac{1}{2 σ^{2}} \sum ε_{i}^{2}}

$\mathcal{L}\propto \sigma^{-n} \: e^{-\frac{1}{2\sigma^2}\sum \varepsilon_i^2}$

które można oszacować przy maksymalnym prawdopodobieństwie jako

\begin{array}{rcl} \propto & ({\hat{σ}}^{2})^{- n / 2} e^{- \frac{1}{2} n {\hat{σ}}^{2} / {\hat{σ}}^{2}} \\ \propto & ({\hat{σ}}^{2})^{- n / 2} e^{- \frac{1}{2} n} \\ \propto & ({\hat{σ}}^{2})^{- n / 2} \end{array}

$\begin{eqnarray} & \propto &(\hat{\sigma}^2)^{-n/2} e^{-\frac12 n\hat{\sigma}^2/\hat{\sigma}^2}\\ & \propto &(\hat{\sigma}^2)^{-n/2} e^{-\frac12 n}\\ & \propto &(\hat{\sigma}^2)^{-n/2} \end{eqnarray}$

(zakładając, że oszacowanie jest oszacowaniem ML) $\sigma^2$

Tak (aż do przesunięcia o stałej) $-2\log\mathcal{L} +2k = n\log{\hat{\sigma}^2} + 2k$

Teraz w modelu ARMA, jeśli jest naprawdę duży w porównaniu do i , prawdopodobieństwo może być przybliżone przez taki szkielet Gaussa (np. Możesz napisać ARMA w przybliżeniu jako dłuższy AR i warunek na wystarczających warunkach, aby napisać ten AR jako model regresji), więc z zamiast : $T$ $p$ $q$ $T$ $n$

$AIC \approx T\log{\hat{\sigma}^2} + 2k$

W związku z tym

$AIC/T \approx \log{\hat{\sigma}^2} + 2k/T$

Teraz, jeśli po prostu porównujesz AIC, to podział przez nie ma żadnego znaczenia, ponieważ nie zmienia kolejności wartości AIC. $T$

Jeśli jednak używasz AIC do innych celów, które opierają się na rzeczywistej wartości różnic w AIC (takich jak wnioskowanie wielomodelowe, jak opisali Burnham i Anderson), to ma to znaczenie.

Wiele tekstów ekonometrycznych wydaje się używać tego formularza AIC / T. Co dziwne, niektóre książki wydają się nawiązywać do Hurvicha i Tsai 1989 lub Findley 1985 dla tej formy, ale Hurvich, Tsai i Findley wydają się omawiać oryginalną formę (chociaż mam tylko pośrednie wskazanie, co robi teraz Findley, więc być może jest coś w Findley na ten temat).

Takie skalowanie może być wykonywane z różnych powodów - na przykład szeregi czasowe, szczególnie szeregi czasowe o wysokiej częstotliwości, mogą być bardzo długie, a zwykłe AIC mogą mieć tendencję do zniekształcania się, szczególnie jeśli jest bardzo małe. (Istnieje kilka innych możliwych powodów, ale ponieważ tak naprawdę nie wiem, dlaczego tak się stało, nie zacznę przeglądać listy wszystkich możliwych powodów). $\sigma^2$

Możesz spojrzeć na listę Robów Hyndmana dotyczącą faktów i błędów AIC , w szczególności punkty od 3 do 7. Niektóre z tych punktów mogą sprawić, że będziesz przynajmniej trochę ostrożny w zbytnim poleganiu na przybliżeniu prawdopodobieństwa Gaussa, ale może jest lepsze uzasadnienie niż tutaj.

Nie jestem pewien, czy istnieje dobry powód, aby użyć tego przybliżenia prawdopodobieństwa dziennika zamiast rzeczywistego AIC, ponieważ obecnie wiele pakietów szeregów czasowych ma tendencję do obliczania (/ maksymalizowania) rzeczywistego prawdopodobieństwa dziennika dla modeli ARMA. Wydaje się, że nie ma powodu, aby go nie używać.

— Glen_b - Przywróć Monikę
źródło

1

Prędzej czy później każda dyskusja na temat dowolnego * IC zmienia się w „To jest kryterium, którego powinieneś użyć, z tym wyjątkiem, że często daje złą odpowiedź w takich a takich okolicznościach”. Po prostu ironiczny, wcale nie krytyczny wobec zazwyczaj pomocnej odpowiedzi. To jest tak jak w prawdziwym życiu, w którym jakaś ogólna maksyma, taka jak „kochaj wszystkich”, jest zwykle tymczasowo zastępowana przez inne rady, jeśli ktoś próbuje cię pobić lub zedrzeć.

— Nick Cox,

1

@Nick Nie interesują mnie teksty, które używają AIC /

zamiast AIC, ale martwi mnie to, że tak wiele książek ekonometrycznych, na które patrzyłem, po prostu nazywają to „AIC” bez komentarza . Dla mnie to po prostu lekkomyślnie nieodpowiedzialne. Ktokolwiek pierwszy to zrobił, ale tego nie powiedział, był wielokrotnie kopiowany.

n

$n$

— Glen_b

2

Uważam, że jest to oparte na założeniu normalnych błędów. W ekonometrii operujesz za pomocą asymptotyków, szczególnie w aplikacjach szeregów czasowych korzystających z AIC. W konsekwencji normalne założenie powinno utrzymywać się asymptotycznie, aby uzasadnić ten (asymptotyczny) schemat wyboru modelu.

$ln(L) = -(T/2)ln(2\pi) -(T/2)ln(\sigma^2) - (1/2\sigma^2)\sum(x_i - \mu)$ $\mathbb{E}(X) = \mu$ $Var(X) = \sigma^2$ $x_1, ..., x_T$

$L$ $Tln(\sigma^2)$ $(1/\sigma^2)(T\hat{\sigma}^2)$ $\hat{\sigma}^2 = T^{-1} \sum(x_i - \bar{x})$ $\sigma^2$ $(1/\sigma^2)(T\hat{\sigma}^2) = (1/\hat{\sigma}^2)(T\hat{\sigma}^2)$

$AIC = 2k + Tln(\sigma^2) + 1$ $1$ $T$ $T$ $AIC$ $AIC/T$

— Jeremias K
źródło