Dlaczego szeregi czasowe muszą być nieruchome?

92

Rozumiem, że stacjonarne szeregi czasowe to takie, których średnia i wariancja jest stała w czasie. Czy ktoś może wyjaśnić, dlaczego musimy upewnić się, że nasz zestaw danych jest stacjonarny, zanim będziemy mogli uruchamiać na nim różne modele ARIMA lub ARM? Czy dotyczy to również modeli regresji normalnej, w których autokorelacja i / lub czas nie są czynnikiem?

regression time-series stationarity

— alex
źródło

2

Jakie są modele ARM? Miałeś na myśli ARMA?

— mpiktas,

9

Stacjonarność wymaga czegoś więcej niż stałej średniej i wariancji. Słaba stacjonarność wymaga, aby funkcja kowariancji nie zależała od .

c o v (X_{t}, X_{t + h})

$cov(X_t,X_{t+h})$

t

$t$

— mpiktas,

11

Do uruchomienia modelu AR MA nie jest wymagana stacjonarność , ponieważ jeśli kolejność wynosi , jest to wyraźnie niestacjonarne. Jednak stacjonarność jest założeniem ARiMR.

I

$I$

I ()

$I()$

> 0

$>0$

— Glen_b,

1

+1 za komentarz do zamówienia, choć ściśle, tylko wtedy, zamówienie jest w . Dla arbitralnych zamówień jest ARFIMA

I

$I$

{0, 1, 2, . . .}

$\{0, 1, 2, ...\}$

— sprzężonyprior

@Glen_b Czy modele ARIMA można stosować z dowolnej niestacjonarnej serii? Czy istnieją jakieś szczególne przypadki niestacjonarne, w których można zastosować ARIMA cana?

— Nizar

75

Stacjonarność jest jednym rodzajem struktury zależności.

Załóżmy, że mamy dane . Najbardziej podstawowym założeniem jest to, że są niezależne, tzn. Mamy próbkę. Niezależność jest przyjemną właściwością, ponieważ dzięki niej możemy uzyskać wiele przydatnych wyników. Problem polega na tym, że czasami (lub często, w zależności od widoku) ta właściwość się nie utrzymuje. $X_1,...,X_n$ $X_i$

Teraz niezależność jest unikalną właściwością, dwie zmienne losowe mogą być niezależne tylko w jeden sposób, ale mogą być zależne na różne sposoby. Zatem stacjonarność jest jednym ze sposobów modelowania struktury zależności. Okazuje się, że wiele ładnych wyników, które dotyczą niezależnych zmiennych losowych (prawo dużych liczb, centralne twierdzenie graniczne, aby wymienić tylko kilka), dotyczy stacjonarnych zmiennych losowych (należy ściśle powiedzieć o sekwencjach). I oczywiście okazuje się, że wiele danych można uznać za stacjonarne, więc koncepcja stacjonarności jest bardzo ważna w modelowaniu danych niezależnych.

Kiedy ustalimy, że mamy stacjonarność, naturalnie chcemy ją modelować. W tym miejscu pojawiają się modele ARMA. Okazuje się, że dowolne dane stacjonarne można aproksymować za pomocą stacjonarnego modelu ARMA, dzięki twierdzeniu Wolda o rozkładzie . Dlatego właśnie modele ARMA są bardzo popularne i dlatego musimy upewnić się, że seria jest stacjonarna, aby korzystać z tych modeli.

Teraz znowu ta sama historia dotyczy niezależności i zależności. Stacjonarność jest definiowana jednoznacznie, tzn. Dane są stacjonarne lub nie, więc istnieje tylko jeden sposób, aby dane były nieruchome, ale istnieje wiele sposobów, aby były niestacjonarne. Ponownie okazuje się, że po pewnej transformacji wiele danych staje się stacjonarnych. Model ARIMA to jeden model niestacjonarności. Zakłada się, że dane stają się nieruchome po różnicowaniu.

W kontekście regresji stacjonarność jest ważna, ponieważ te same wyniki, które dotyczą niezależnych danych, zachowują się, jeśli dane są nieruchome.

— mpiktas
źródło

4

Sugerowałbym, abyś umieścił tę część swojej odpowiedzi („W tym miejscu pojawiają się modele ARMA. Okazuje się, że dowolne dane stacjonarne można aproksymować za pomocą stacjonarnego modelu ARMA, dzięki twierdzeniu Wolda o rozkładzie. Dlatego modele ARMA są bardzo popularne i dlatego musimy upewnić się, że seria jest stacjonarna, aby korzystać z tych modeli. ”) pogrubioną czcionką, ponieważ to przede wszystkim odpowiada na pytanie.

— Poete Maudit,

34

Jakimi wielkościami zazwyczaj jesteśmy zainteresowani, gdy przeprowadzamy analizę statystyczną w szeregu czasowym? Chcemy wiedzieć

Jego oczekiwana wartość,
Jego wariancja i
Korelacja między wartościami okresach od siebie dla zestawu wartości. $s$ $s$

Jak obliczamy te rzeczy? Używanie średniej z wielu okresów.

Średnia z wielu okresów ma charakter informacyjny tylko wtedy, gdy oczekiwana wartość jest taka sama dla tych okresów. Jeśli te parametry populacji mogą się różnić, co tak naprawdę szacujemy, biorąc średnią w czasie?

(Słaba) stacjonarność wymaga, aby te populacje były takie same w czasie, co czyni średnią próbną rozsądnym sposobem ich oszacowania.

Ponadto stacjonarne procesy pozwalają uniknąć problemu fałszywej regresji .

— Charlie
źródło

12

Podstawową ideą uczenia statystycznego jest to, że możesz się uczyć powtarzając eksperyment. Na przykład możemy ciągle przewracać pinezkę, aby dowiedzieć się, jakie prawdopodobieństwo wyląduje na jej głowie.

W kontekście szeregów czasowych obserwujemy pojedynczy przebieg procesu stochastycznego zamiast powtarzanych przebiegów procesu stochastycznego. Obserwujemy 1 długi eksperyment zamiast wielu niezależnych eksperymentów.

Potrzebujemy stacjonarności i ergodyczności, aby obserwowanie długiego przebiegu procesu stochastycznego było podobne do obserwowania wielu niezależnych przebiegów procesu stochastycznego.

Niektóre (nieprecyzyjne) definicje

Niech $\Omega$ będzie przestrzenią próbki. Proces stochastyczny $\{Y_t\}$ jest funkcją zarówno czasu $t \in \{1, 2, 3, \ldots\}$ i wyniku $\omega \in \Omega$ .

Dla dowolnego czasu $t$ , $Y_t$ jest zmienną losową (tj. Funkcją od $\Omega$ do pewnej przestrzeni, takiej jak przestrzeń liczb rzeczywistych).
Dla każdego wyniku $\omega$ mamy $X(\omega)$ to szereg deterministyczny $\{Y_1(\omega), Y_2(\omega), Y_3(\omega), \ldots \}$

Podstawowa kwestia w szeregach czasowych

W Statistics 101 nauczono nas o szeregu niezależnych i identycznie rozmieszczonych zmiennych $X_1$ , $X_2$ , $X_3$ itd. Obserwujemy wiele identycznych eksperymentów $i = 1, \ldots, n$ gdzie $\omega_i \in \Omega$ jest losowe wybrany, a to pozwala nam dowiedzieć się o zmiennej losowej $X$ . Zgodnie z prawem wielkich liczb mamy $\frac{1}{n} \sum_{i=1}^n X_i$ prawie na pewno zbliżamy się do $\operatorname{E}[X]$ .

Fundamentalna różnica w ustawieniu szeregów czasowych polega na tym, że obserwujemy wiele obserwacji w czasie $t$ a nie wiele losowań z $\Omega$ .

W ogólnym przypadku $\frac{1}{T} \sum_{t=1}^T Y_t$ może w ogóle nie być zbieżny!

Do wielokrotnych obserwacji w czasie, aby osiągnąć podobne zadanie, jak wielokrotne pobieranie z przestrzeni próbki , potrzebujemy stacjonarności i ergodyczności .

Jeśli istnieje bezwarunkowa średnia $\operatorname{E}[Y]$ i spełnione są warunki dla twierdzenia ergodycznego, szeregi czasowe, średnia próbki $\frac{1}{T}\sum_{t =1}^T Y_t$ zbiegnie się do bezwarunkowej średniej $\operatorname{E}[Y]$ .

Przykład 1: awaria stacjonarności

Niech $\{Y_t\}$ będzie zdegenerowanym procesem $Y_t = t$ . Możemy zobaczyć, że $\{Y_t\}$ jest nieruchomy (łącznego rozkładu nie jest niezmienna w czasie).

Niech $S_t = \frac{1}{t} \sum_{i=1}^t Y_i$ jest próbka w czasie serii znaczy, i jest oczywiste, że $S_t$ nie zbiegają się cokolwiek w $t \rightarrow \infty$ : $S_1 = 1, S_2 = \frac{3}{2}, S_3 = 2, \ldots, S_t = \frac{t+1}{2}$ . Średnia $Y_t$ nie istnieje, a $S_t$ nie zbiega się z niczym, jak $t \rightarrow \infty$ .

Przykład: niepowodzenie ergodyczności

Niech $X$ będzie wynikiem jednego rzutu monetą. Niech $Y_t = X$ dla wszystkich $t$ , czyli $\{Y_t\} = (0, 0, 0, 0, 0, 0, 0, \ldots)$ lub $\{Y_t\} = (1, 1, 1, 1, 1, 1, 1, \ldots$ .

Mimo że $\operatorname{E}[Y_t] = \frac{1}{2}$ , średnia próbka szeregów czasowych $S_t = \frac{1}{t} \sum_{i = 1}^t Y_i$ nie daje średnią $Y_t$ .

— Matthew Gunn
źródło

10

Aby dodać odpowiedź wysokiego poziomu do niektórych innych odpowiedzi, które są dobre, ale bardziej szczegółowe, stacjonarność jest ważna, ponieważ w przypadku jej braku model opisujący dane będzie różny pod względem dokładności w różnych punktach czasowych. Jako taka, statystyka jest wymagana dla przykładowych statystyk, takich jak średnie, wariancje i korelacje, aby dokładnie opisać dane we wszystkich punktach czasowych.

$600<t<800$ $200<t<400$

— Jeffrey Girard
źródło

8

$x_t=x_{t-1}+e_t$

Często jednak szukamy stacjonarności. Dlaczego?

Rozważ problem z prognozowaniem. Jak prognozujesz? Jeśli jutro wszystko będzie inne, nie da się przewidzieć, ponieważ wszystko będzie inne. Tak więc kluczem do prognozowania jest znaleźć coś, że będą takie same jutro i przedłużyć że do jutra. Że coś może być wszystkim. Dam ci kilka przykładów.

$e_t\sim\mathcal{N}(0,\sigma^2)$ $\sigma^2$ $\Delta x_t\equiv x_t-x_{t-1}=e_t$ $\Delta x_t$

$x_t=\alpha t+e_t$ $E[e_t]=0$ $\alpha$

Do prognozowania absolutnie musimy znaleźć składnik stały (niezmienny w czasie) w szeregu, w przeciwnym razie nie da się przewidzieć z definicji. Stacjonarność jest tylko szczególnym przypadkiem niezmienniczości.

— Aksakal
źródło

5

Ponieważ ARIMA w większości się regresuje, stosuje rodzaj samo-indukowanej wielokrotnej regresji, na którą niepotrzebnie wpływałby silny trend lub sezonowość. Ta technika wielokrotnej regresji opiera się na poprzednich wartościach szeregów czasowych, szczególnie tych z ostatnich okresów, i pozwala nam wyodrębnić bardzo interesującą „wzajemną zależność” między wieloma przeszłymi wartościami, które działają w celu wyjaśnienia przyszłej wartości.

— Robert
źródło

2

$X$ $(X_{t+1},\ldots,X_{t+k})$ $(X_1,\ldots,X_k)$ $t$ $k$ . Z Wiki: proces stacjonarny (lub ścisły (ly) proces stacjonarny lub silny (ly) proces stacjonarny) jest procesem stochastycznym, którego łączny rozkład prawdopodobieństwa nie zmienia się po przesunięciu w czasie lub przestrzeni. W związku z tym parametry, takie jak średnia i wariancja, jeśli istnieją, również nie zmieniają się w czasie lub pozycji. Ponadto, jak kardynał słusznie wskazał poniżej, funkcja autokorelacji musi być niezmienna w czasie (co oznacza, że funkcja kowariancji jest stała w czasie) przekształca się w parametry modelu ARMA niezmienne / stałe dla wszystkich przedziałów czasowych.

Idea stacjonarności modelu ARMA jest ściśle związana z ideą odwracalności.

$y(t)=1.1 \,y(t-1)$ $(1-1.1 B)$

— IrishStat
źródło

1

X

$X$

Wzmianka o stacjonarnym drugim rzędzie wydaje się być zagubiona w ostatniej edycji. Czy to było zamierzone? (Mój oryginalny komentarz był bardziej ukierunkowany na stacjonarność drugiego rzędu niż na ścisłą stacjonarność).

— kardynał

: kardynał Wydaje mi się, że uważam, że wasz komentarz jest ważny i wyjaśnił, co się zakłada. Jeśli uważasz, że pomysł „stacjonarnego drugiego rzędu” dodaje jasności, pomóż mi dodać go do mojej odpowiedzi w sposób, który rozjaśnia prosty, prosty angielski.

— IrishStat,

-2

ARMA i ARIMA są budowane przy założeniu, że seria jest stacjonarna. Jeśli seria nie jest, to prognoza będzie niepoprawna.

Przykładowe statystyki - średnia, wariancja, korelacja - są przydatne jako deskryptory przyszłych zachowań tylko wtedy, gdy seria jest stacjonarna. Na przykład, jeśli seria stale rośnie w czasie, średnia próbki i wariancja będą rosły wraz z rozmiarem próbki i zawsze będą zaniżać średnią i wariancję w przyszłych okresach. Ważne jest zachowanie ostrożności podczas ekstrapolacji modeli regresji dopasowanych do danych niestacjonarnych.

— Rama Thamman
źródło

-3

Moim zdaniem proces stochastyczny jest procesem, który rządzi się trzema właściwościami statystycznymi, które muszą być zmienne w czasie. Są to średnie wariancje i funkcja autokorelacji. Chociaż pierwsze dwa nie mówią nic o ewolucji procesu w czasie, więc należy wziąć pod uwagę trzecią właściwość, która jest funkcją autokorelacji, która mówi, jak rozpada się zależność w miarę upływu czasu (opóźnienia).

— Ciekawość
źródło

5

To myli bycie procesem stochastycznym i bycie stacjonarnym, więc zaczyna się od podstawowego błędu. Co twoja odpowiedź dodaje do już opublikowanych?

— Nick Cox

-3

Aby rozwiązać cokolwiek, musimy modelować równania matematycznie za pomocą statyki.

Aby rozwiązać takie równania, musi być niezależny i stacjonarny (nie poruszający się)
Tylko w przypadku danych stacjonarnych możemy uzyskać wgląd i wykonywać operacje matematyczne (średnia, wariancja itp.) Dla celów wielofunkcyjnych
W niestacjonarnych trudno jest uzyskać dane

Podczas procesu konwersji uzyskamy trend i sezonowość

— saravanan saminathan
źródło

2

Żadna z twoich odpowiedzi nie ma sensu. Przesłanka pytania jest błędna. Wiele szeregów czasowych można uznać za niestacjonarne zarówno teoretycznie, jak i obserwacyjnie. Na przykład istnieje wiele metod radzenia sobie z tym! różnicowanie lub różnicowanie sezonowe w szeregu lub 2. w tym elementy cykliczne, takie jak fale sinusoidalne.

— Michael Chernick,

@MichaelChernick Podczas różnicowania i różnicowania sezonowego przekształcamy serie niestacjonarne w stacjonarne. Akceptuję twój punkt widzenia, że wiele szeregów czasowych jest niestacjonarnych, ale aby rozwiązać je matematycznie, musimy przekształcić je w stacjonarne jedno prawo

— saravanan saminathan