Kiedy logować przekształcać szeregi czasowe przed dopasowaniem modelu ARIMA


26

Wcześniej używałem prognozy pro do prognozowania szeregów czasowych na jednym szeregu, ale zmieniam przepływ pracy na R. Pakiet prognozy dla R zawiera wiele przydatnych funkcji, ale jedna rzecz nie robi to jakiejkolwiek transformacji danych przed uruchomieniem auto .arima (). W niektórych przypadkach prognozy pro decydują się na rejestrowanie danych transformacji przed wykonaniem prognoz, ale jeszcze nie wiem, dlaczego.

Więc moje pytanie brzmi: kiedy powinienem przekształcić logi szeregów czasowych przed wypróbowaniem na nim metod ARIMA?

/ edit: po przeczytaniu twoich odpowiedzi użyję czegoś takiego, gdzie x to moja seria czasowa:

library(lmtest)
if ((gqtest(x~1)$p.value < 0.10) {
    x<-log(x)
}

Czy to ma sens?

Odpowiedzi:


21

Niektóre zastrzeżenia przed kontynuowaniem. Jak często sugeruję moim uczniom, używaj auto.arima()rzeczy tylko jako pierwsze przybliżenie twojego końcowego wyniku lub jeśli chcesz mieć model oszczędnościowy, gdy sprawdzasz, czy twój rywalizujący model oparty na teorii radzi sobie lepiej.

Dane

Oczywiście musisz zacząć od opisu danych szeregów czasowych, z którymi pracujesz. W makroekonometrii zwykle pracujesz z danymi zagregowanymi, a środki geometryczne (o dziwo) mają więcej dowodów empirycznych dla danych makro szeregów czasowych, prawdopodobnie dlatego, że większość z nich rozkłada się w wykładniczy trend wzrostowy .

Nawiasem mówiąc, sugestia Roba „wizualnie” działa dla szeregów czasowych z wyraźną częścią sezonową , ponieważ powoli zmieniające się dane roczne są mniej jasne dla wzrostu zmienności. Na szczęście zwykle obserwuje się wykładniczo rosnący trend (jeśli wydaje się liniowy, to nie ma potrzeby rejestrowania dzienników).

Model

Jeśli twoja analiza opiera się na teorii, która stwierdza, że ​​pewna ważona średnia geometryczna bardziej znany jako model regresji multiplikatywnej jest tym, z którym musisz pracować. Następnie zwykle przechodzisz do modelu regresji log-log , który ma parametry liniowe i większość twoich zmiennych, ale niektóre stopy wzrostu są przekształcane.Y(t)=X1α1(t)...Xkαk(t)ε(t)

W ekonometrii finansowej dzienniki są powszechne ze względu na popularność zwrotów dzienników, ponieważ ...

Przekształcenia dziennika mają ładne właściwości

W modelu regresji log-log jest interpretacja badanego parametru, np jak elastyczność w na . Y ( t ) X i ( t )αjaY(t)Xja(t)

W modelach korekcji błędów mamy empirycznie silniejsze założenie, że proporcje są bardziej stabilne ( stacjonarne ) niż różnice bezwzględne.

W ekonometrii finansowej łatwo jest agregować zwroty dzienników w czasie .

Istnieje wiele innych powodów, które nie zostały tu wymienione.

Wreszcie

Zauważ, że transformacja log jest zwykle stosowana do zmiennych nieujemnych (poziomowych). Jeśli zaobserwujesz różnice między dwoma szeregami czasowymi (na przykład eksport netto), nie jest nawet możliwe zapisanie dziennika, musisz albo wyszukać oryginalne dane w poziomach, albo przyjąć formę wspólnego trendu, który został odjęty.

[ dodanie po edycji ] Jeśli nadal potrzebujesz statystycznego kryterium, kiedy przeprowadzać transformację logów, prostym rozwiązaniem byłby dowolny test na heteroscedastyczność. W przypadku rosnącej wariancji poleciłbym test Goldfelda-Quandta lub podobny. W R znajduje się w library(lmtest)i jest oznaczony gqtest(y~1)funkcją. Po prostu regresuj na zasadzie przechwytywania, jeśli nie masz żadnego modelu regresji, yjest to twoja zmienna zależna.


dzięki za informację. Z testem GQ im niższa wartość p, tym większe prawdopodobieństwo, że rozkład jest heteroskedastyczny?
Zach

@Zach: dokładnie, weź na przykład 5%, oczywiście, jeśli nie planujesz iść na eksplorację danych. Osobiście zaczynam od założeń modelu.
Dmitrij Celov

@Dmitrij. Dziękuję Ci. Chcę tylko upewnić się, że poprawnie interpretuję dane wyjściowe.
Zach.

29

Wykreślić wykres danych w funkcji czasu. Jeśli wygląda na to, że zmiana rośnie wraz z poziomem serii, weź dzienniki. W przeciwnym razie modeluj oryginalne dane.


3
Oto pytanie: jaki jest efekt, jeśli weźmiesz dzienniki i nie są one wymagane? Podobało mi się to podczas pracy z szeregami czasowymi, które wymagają transformacji dziennika, ponieważ (jak rozumiem) współczynniki są stosunkami i przy małych wartościach prawie procentami. (Np. Exp (0,05) = 1,051.)
Wayne

4

Po ich owocach poznacie ich

Założeniem (do przetestowania) jest to, że błędy z modelu mają stałą wariancję. Uwaga: nie oznacza to błędów z założonego modelu. Korzystając z prostej analizy graficznej, zasadniczo zakładasz model liniowy w czasie.

Zatem jeśli masz nieodpowiedni model, taki jak może być sugerowany przez przypadkowy wykres danych w czasie, możesz niepoprawnie dojść do wniosku o potrzebie transformacji mocy. Box i Jenkins zrobili to na przykładzie danych linii lotniczych. Nie uwzględnili 3 nietypowych wartości w najnowszych danych, dlatego błędnie doszli do wniosku, że na najwyższym poziomie szeregu występowały większe różnice w wartościach resztkowych.

Więcej informacji na ten temat można znaleźć na stronie http://www.autobox.com/pdfs/vegas_ibf_09a.pdf


1

Możesz chcieć przekształcić logi w serie, gdy są one w jakiś sposób naturalnie geometryczne lub gdy wartość czasowa inwestycji oznacza, że ​​będziesz porównywał się do obligacji o minimalnym ryzyku, która ma dodatni zwrot. To sprawi, że będą bardziej „linearyzowalne”, a zatem odpowiednie do prostej różniczkowej relacji nawrotu.


1
Transformacje są jak narkotyki: niektóre są dla ciebie dobre, a niektóre nie. Jeśli nie jesteś zainteresowany testowaniem hipotez statystycznych, możesz założyć, co chcesz. Testy parametryczne hipotezy mają założenia dotyczące ceny błędów, zignoruj ​​je na własne ryzyko.
IrishStat

1
Tak prawdziwe. Powiedziałem, że proces musi być geometryczny. Brak transformacji może również prowadzić do błędów wnioskowania. Nie rozumiem, gdzie sugerowałem, aby zignorować założenia dotyczące warunków prawidłowego wnioskowania.
DW

1
stats.stackexchange.com/questions/6498/... zawiera dyskusję o tym, kiedy i dlaczego dokonać transformacji. „Fakt”, że oryginał opiera się na „geometryce”, nie oznacza, że ​​reszty z odpowiedniego modelu mają odchylenie standardowe, które jest proporcjonalne do średniej. Może ALE musi to zostać potwierdzone empirycznie lub przynajmniej przetestowane.
IrishStat
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.