Jaki jest sens analizy szeregów czasowych?


29

Jaki jest sens analizy szeregów czasowych?

Istnieje wiele innych metod statystycznych, takich jak regresja i uczenie maszynowe, które mają oczywiste przypadki użycia: regresja może dostarczyć informacji na temat relacji między dwiema zmiennymi, podczas gdy uczenie maszynowe doskonale nadaje się do przewidywania.

Tymczasem nie wiem, do czego służy analiza szeregów czasowych. Jasne, mogę dopasować model ARIMA i użyć go do przewidywania, ale co to za korzyść, gdy przedziały ufności dla tej prognozy będą ogromne? Jest powód, dla którego nikt nie jest w stanie przewidzieć rynku akcji, mimo że jest to najbardziej oparta na danych branża w historii świata.

Podobnie, jak mogę go użyć, aby lepiej zrozumieć mój proces? Jasne, mogę wykreślić ACF i powiedzieć „aha! Jest trochę zależności!”, Ale co wtedy? Jaki jest sens? Oczywiście istnieje zależność, dlatego na początku przeprowadzasz analizę szeregów czasowych. Wiedziałeś już, że istnieje zależność . Ale do czego zamierzasz go użyć?


13
Istnieją inne przypadki użycia oprócz finansów i ekonomii, w których działają dobrze.
user2974951,

29
Nie możesz przewidzieć rynku akcji za pomocą innych metod statystycznych i uczenia maszynowego, czy to czyni je również bezużytecznymi ...?
Tim

16
Wydaje się, że sugerujesz, że ARIMA nie jest formą regresji. To jest.
Firebug,

10
Myślę, że to dobre pytanie, nawet jeśli odpowiedź wydaje się oczywista dla ekspertów.
Gung - Przywróć Monikę

6
Zaczynam się różnić od @gung i innych, ponieważ najmniejszy wysiłek badawczy by na to odpowiedział.
whuber

Odpowiedzi:


54

Jednym z głównych zastosowań jest . Karmię moją rodzinę od ponad dekady, prognozując, ile jednostek określonego produktu supermarket będzie jutro sprzedawał, aby mógł zamówić wystarczającą ilość towaru, ale nie za dużo. Są w tym pieniądze.

Inne przypadki użycia prognozowania podano w publikacjach takich jak International Journal of Forecasting lub Foresight . (Pełne ujawnienie: jestem redaktorem naczelnym programu Foresight .)

Tak, czasami są ogromne. (Zakładam, że masz na myśli PI, a nie s. Jest różnica. ) To po prostu oznacza, że ​​proces jest trudny do przewidzenia. Następnie musisz złagodzić. Przy prognozowaniu sprzedaży w supermarketach oznacza to, że potrzebujesz dużej ilości zapasów bezpieczeństwa. Prognozując wzrost poziomu morza, oznacza to, że musisz budować wyższe wały przeciwpowodziowe. Powiedziałbym, że duży przedział prognozowania dostarcza użytecznych informacji.

I we wszystkich przypadkach użycia do prognozowania przydatna jest analiza , chociaż prognozowanie jest większym tematem. Często można poprawić prognozy, biorąc pod uwagę zależności w szeregach czasowych, dlatego należy je zrozumieć poprzez analizę, która jest bardziej szczegółowa niż tylko wiedza o zależnościach.

Ponadto ludzie są zainteresowani szeregami czasowymi, nawet jeśli nie prognozują. Ekonometrycy lubią wykrywać punkty zmiany w makroekonomicznych szeregach czasowych. Lub oceń wpływ interwencji, takiej jak zmiana przepisów podatkowych, na PKB lub coś innego. Możesz przejrzeć swój ulubiony dziennik ekonometryczny, aby uzyskać więcej inspiracji.


14
+1. Przydaje się również w innych miejscach. Przeprowadzenie analizy szeregów czasowych z pewnością zaalarmuje Cię o zdarzeniach (o których nie wiedziałeś), które wpływają na wynik, który Cię interesuje. Ja i wszyscy moi koledzy byli całkowicie zaskoczeni, gdy stwierdziliśmy, że ogólnie jesteśmy znacznie gorsi w analizach chemicznych produktów we wtorek rano. Prześledziliśmy go z powrotem do dobrze zaplanowanego harmonogramu czyszczenia, który miał pewne słabości. Zaoszczędziliśmy w ciągu roku prawie milion i poprawiliśmy ppk produktu z 1,7 do 1,9. Wyciągnięta lekcja: zawsze wykonuj podstawową analizę szeregów czasowych dla każdego problemu z ramką wariacyjną.
Stian Yttervik

+1. @Stephan Kolassa, twoja odpowiedź podkreśla, w jaki sposób wykorzystywane są prognozy w świecie rzeczywistym, co jest moją interpretacją pytania PO. Punkt przedziału prognozy i (połowa) długości to dokładnie informacja, na której zależy Ci planowanie strategii łagodzenia. Jeśli budujesz wały przeciwpowodziowe, aby zapobiec zalaniu Manhattanu, a nowa metoda szeregów czasowych odpowiednio skraca interwał przewidywania, możesz obniżyć koszty budowy wałów przeciwpowodziowych, wykorzystując tylko niezbędne zasoby. Mutatis mutandis dotyczy twojego przykładu spożywczego.
Lucas Roberts,

13

Cele w analizie TS na podstawie lekcji M. Dettlinga:

1) Analiza eksploracyjna: Wizualizacja właściwości szeregu

  • wykres szeregów czasowych
  • rozkład na trend / wzór sezonowy / błąd losowy
  • korelogram do zrozumienia struktury zależności

2) Modelowanie: dopasowanie modelu stochastycznego do danych reprezentujących i odzwierciedlających najważniejsze właściwości serii

  • przeprowadzone badanie lub z wcześniejszą wiedzą
  • wybór modelu i oszacowanie parametrów ma kluczowe znaczenie
  • wnioskowanie: jak dobrze model pasuje do danych?

3) Prognozowanie: Prognozowanie przyszłych obserwacji z miarą niepewności

  • głównie oparte na modelu, wykorzystuje zależności i przeszłe dane
  • jest ekstrapolacją, dlatego często bierze się ją z ziarenkiem soli
  • podobnie do prowadzenia samochodu przez patrzenie w lusterko wsteczne

4) Kontrola procesu: Wynik (fizycznego) procesu określa szereg czasowy

  • model stochastyczny dopasowuje się do obserwowanych danych
  • pozwala to zrozumieć zarówno sygnał, jak i szum
  • możliwe jest monitorowanie normalnych / nienormalnych wahań

5) Regresja szeregów czasowych: Szereg czasowy reakcji modelowania przy użyciu 1 lub więcej szeregów wejściowych. Montaż tego modelu przy założeniu błędu id:

  • prowadzi do obiektywnych szacunków, ale ...
  • często rażąco błędne standardowe błędy
  • dlatego przedziały ufności i testy wprowadzają w błąd

Informacje o oznaczonym magazynie:

  • Te TS są bardzo niestabilne, co jest trudne do modelowania.
  • Na przykład zmiana przepisów prawnych dotyczących firmy może prowadzić do zmiany w procesie SPW ... jak przewidywałoby to jakiekolwiek narzędzie statystyczne?

Informacje o korelacji szeregowej:

  • W przeciwieństwie do statystyk wielowymiarowych dane w szeregach czasowych zwykle nie są identyfikowane, ale są skorelowane szeregowo.
  • Informacje te mogą być również przydatne do wykrycia czegoś, co nie jest ważne, na przykład, jak na przykład brudny instrument laboratoryjny

1
Dodałbym klasyfikację, np. Istnieje wiele aplikacji, które rozpoznają twoją aktywność na podstawie analizy danych akcelerometru twojego telefonu.
SaiBot,

To interesujące! Jak Ty to robisz?
Nicole Origami Fox,

1
Myślę, że istnieje wiele różnych sposobów. Jednym ze sposobów byłoby umożliwienie użytkownikom generowania danych szkoleniowych poprzez oznaczanie ich aktywności. Gdy już to zrobisz, możesz skracać swoje szeregi czasowe w (nakładających się) odstępach (np. 3 sekundy) i trenować model uczenia maszynowego. Następnie będziesz mógł sklasyfikować nieoznaczone czynności.
SaiBot,

Dziękuję SaiBot. Rozumiem, że muszę częściej rozważać kombinację różnych narzędzi :)
Nicole Origami Fox

11

Najłatwiejszym sposobem na udzielenie odpowiedzi na pytanie jest zrozumienie, że z grubsza zestawy danych są często klasyfikowane jako przekrój , szeregi czasowe i panel . Regresja przekrojowa to podstawowe narzędzie do zestawów danych przekrojowych. To jest to, co większość ludzi wie i nazywa regresją . Regresja szeregów czasowych jest czasami stosowana do szeregów czasowych, ale analiza szeregów czasowych ma szeroki zakres narzędzi poza regresją.

(x1,y1),(x2),y3)),,(xn,yn)xja,yjayxy^x

wprowadź opis zdjęcia tutaj

Jeśli próbka nie była losowa, regresja może w ogóle nie działać. Na przykład wybrałeś tylko dziewczyny z pierwszej klasy, aby oszacować model, ale musisz przewidzieć wzrost męskiej 12-klasowej równiarki. Zatem regresja ma swoje własne problemy, nawet w konfiguracji przekrojowej.

xt,yt(x1,y1),(x2),y3)),,(xn,yn)tx,y

wprowadź opis zdjęcia tutaj

t

Trzecim wspólnym typem zestawu danych jest panel, szczególnie ten z danymi podłużnymi. Tutaj możesz uzyskać kilka migawek zmiennych dotyczących masy i wzrostu dla wielu uczniów. Ten zestaw danych może wyglądać jak fale przekrojów lub zestaw szeregów czasowych.

wprowadź opis zdjęcia tutaj

Oczywiście może to być bardziej skomplikowane niż poprzednie dwa typy. W tym przypadku wykorzystujemy regresję panelu i inne specjalne techniki opracowane dla paneli.

Podsumowując, powodem, dla którego regresję szeregów czasowych uważa się za odrębne narzędzie w porównaniu z regresją przekrojową, jest to, że szeregi czasowe stanowią wyjątkowe wyzwania, jeśli chodzi o założenia niezależności techniki regresji. W szczególności ze względu na fakt, że w przeciwieństwie do analizy przekrojowej, kolejność obserwacji ma znaczenie, zwykle prowadzi do wszelkiego rodzaju struktur korelacji i zależności, co może czasem unieważnić zastosowanie technik regresji. Musisz poradzić sobie z zależnością i właśnie w tym dobrze jest przeprowadzać analizę szeregów czasowych.

Przewidywalność cen aktywów

Powtarzasz również powszechne nieporozumienie na temat rynków akcji i ogólnie cen aktywów, że nie można ich przewidzieć. To stwierdzenie jest zbyt ogólne, aby mogło być prawdziwe. To prawda, że ​​nie można wprost rzetelnie przewidzieć następnego tiku AAPL. Jest to jednak bardzo wąski problem. Jeśli zarzucisz swoją sieć szerzej, odkryjesz wiele możliwości zarabiania pieniędzy na wszelkiego rodzaju prognozach (w szczególności na analizie szeregów czasowych). Arbitraż statystyczny jest jedną z takich dziedzin.

Powodem, dla którego ceny aktywów są trudne do przewidzenia w najbliższym czasie, jest fakt, że dużym składnikiem zmian cen są nowe informacje. Naprawdę nowe informacje, których nie można realistycznie opracować z przeszłości, są z definicji niemożliwe do przewidzenia. Jest to jednak model wyidealizowany i wiele osób twierdzi, że istnieją anomalie , które pozwalają na utrzymanie stanu. Oznacza to, że część zmiany ceny można wyjaśnić przeszłością. W takich przypadkach analiza szeregów czasowych jest całkiem odpowiednia, ponieważ dokładnie dotyczy uporczywości. Oddziela nowe od starych, nowe są niemożliwe do przewidzenia, ale stare są przeciągane z przeszłości w przyszłość. Jeśli można wytłumaczyć nawet trochę w finansach to znaczy, że możebyć w stanie zarabiać pieniądze. Tak długo, jak cena strategii opartej na takich prognozach obejmuje generowany przez nią dochód.

Na koniec spójrz na nagrodę Nobla w dziedzinie ekonomii w 2013 r . : „całkiem możliwe jest przewidzenie szerokiego przebiegu tych cen w dłuższych okresach, takich jak następne trzy do pięciu lat”. Spójrz na wykład Nobla Shillera , omawia przewidywalność cen aktywów.


6

Analiza szeregów czasowych może również przyczynić się do skutecznego wykrywania anomalii lub wartości odstających w danych czasowych.

Na przykład możliwe jest dopasowanie modelu ARIMA i obliczenie przedziału prognozy. W zależności od przypadku użycia, interwał może być użyty do ustalenia progu, w ramach którego można powiedzieć, że proces jest kontrolowany; jeśli nowe dane wykraczają poza próg, są oznaczane do dalszej uwagi.

Ten post na blogu zawiera krótki i szeroki przegląd analizy szeregów czasowych w celu wykrycia wartości odstających. Aby uzyskać bardziej dogłębne leczenie, badacze w serwisie eBay wyjaśniają, w jaki sposób przeprowadzili wykrywanie anomalii na dużą skalę na podstawie analizy statystycznej danych szeregów czasowych.


6

Istnieje wiele innych metod statystycznych, takich jak regresja i uczenie maszynowe, które mają oczywiste przypadki użycia: regresja może dostarczyć informacji na temat relacji między dwiema zmiennymi, podczas gdy uczenie maszynowe doskonale nadaje się do przewidywania.

Odpowiadasz na własne pytanie, poniżej: autokorelacja. Szeregi czasowe zwykle mają to, co narusza założenie podstawowej regresji OLS. Techniki szeregów czasowych mają odpowiednie założenia dla szeregów czasowych.

Metody uczenia maszynowego dotyczące danych sekwencyjnych są wyspecjalizowane, takie jak rekurencyjne sieci neuronowe (RNN) lub splotowe sieci neuronowe 1-D (CNN), więc nadal masz specjalistyczne techniki dla szeregów czasowych.

Tymczasem nie wiem, do czego służy analiza szeregów czasowych. Jasne, mogę dopasować model ARIMA i użyć go do przewidywania, ale co to za korzyść, gdy przedziały ufności dla tej prognozy będą ogromne? Jest powód, dla którego nikt nie jest w stanie przewidzieć rynku akcji, mimo że jest to najbardziej oparta na danych branża w historii świata.

Przedziały ufności (CI) wynikające z techniki szeregów czasowych będą prawdopodobnie większe niż te z regresji szeregów czasowych. Ta funkcja jest znana jako dokładna. Ogólnie rzecz biorąc, gdy użyjesz regresji innej niż szereg czasowy, twój CI będzie mniejszy, ale jest niepoprawny, ponieważ naruszyłeś jego założenia. Jeśli wszystko, co chcesz zrobić, to przedstawić wykres z małymi elementami CI, wykonaj je lub całkowicie pomiń elementy CI, ale jeśli chcesz odpowiednie elementy CI, zastosuj odpowiednie techniki.

Rynek akcji jest trudny do przewidzenia z powodu swojej natury. Inne szeregi czasowe są znacznie bardziej przewidywalne. Spróbuj użyć wybranej przez siebie techniki uczenia maszynowego na giełdzie i wątpię, czy odniesiesz większy sukces.

Podobnie, jak mogę go użyć, aby lepiej zrozumieć mój proces? Jasne, mogę wykreślić ACF i powiedzieć „aha! Jest trochę zależności!”, Ale co wtedy? Jaki jest sens? Oczywiście istnieje zależność, dlatego na początku przeprowadzasz analizę szeregów czasowych. Wiedziałeś już, że istnieje zależność. Ale do czego go użyjesz?

Przewidywać. Aby zobaczyć sezonowość. Aby mieć pojęcie o zmienności danych w różnych porach roku. Nie wspominając o tym, że istnieją bardziej zaawansowane techniki szeregów czasowych niż oldschoolowa ARIMA, takie jak metody Space Space. ARIMA nie jest najlepszą techniką modelowania szeregów czasowych. (W rzeczywistości procedura ARIMA w wybranym oprogramowaniu statystycznym prawdopodobnie korzysta z reprezentacji Przestrzeni Stanu pod maską.)


5

Aby dodać trochę koloru odpowiedzi na wykrywanie anomalii przez redhqs, w pracy buduję modele wykrywania anomalii dla wskaźników operacyjnych, takich jak sprzedaż i przepływy ruchu. Przeprowadzamy analizę szeregów czasowych, aby zrozumieć, jaka powinna być sprzedaż, jeśli wszystko działa zgodnie z oczekiwaniami, a następnie porównaj je z zaobserwowanymi wartościami, aby sprawdzić, czy witryna jest zepsuta. Jest to ważne, ponieważ z każdą minutą awarii strony tracimy dużo pieniędzy.

Istnieją różne metody, których można użyć, a różne metody w wielu przypadkach próbują osiągnąć różne cele. Na przykład główna metoda statystyczna, którą zastosowałem do wykrywania anomalii sprzedaży, nazywa się „STL” (rozkład trendu sezonowego przy użyciu lessu). To oddziela regularną sezonowość, trend i losowy hałas. W rzeczywistości używamy tego do identyfikowania sezonowości dziennej i tygodniowej. Następnie eliminujemy hałas i łączymy trend / sezonowość, aby oszacować oczekiwaną sprzedaż. Dlatego w naszym przypadku wykorzystujemy to podejście, aby zrozumieć, jak zmienia się sprzedaż w zależności od pory dnia i pory tygodnia, oraz aby wykluczyć przypadkowy szum z szacunków.


Wygląda na to, że budujesz modele szeregów czasowych, które nie zakładają żadnych anomalii, dlatego mogą nie być solidne, w przeciwieństwie do strategii identyfikacji modeli, które wyraźnie pozwalają na jednoczesną identyfikację zarówno wartości SARIMA, jak i czekania na odkrycie. Struktura interwencji (impulsy, przesunięcia poziomu / kroku , pulsacje sezonowe, trendy czasu lokalnego)
IrishStat

Algo STL ma flagę niezawodności (kontroluje liczbę iteracji pętli wygładzającej). W każdym razie działa bardzo dobrze w przypadku naszych szeregów czasowych.
Willie Wheeler,

# iteracji nie zajmuje się uprzedzeniami w formie modelowej, jeśli istnieje deterministyczna struktura oczekująca na odkrycie.
IrishStat

3

Oprócz doskonałych odpowiedzi udzielonych przez innych, chciałbym skomentować, w jaki sposób analizy szeregów czasowych są wykorzystywane w elektrotechnice.

Duża część elektrotechniki polega na modulowaniu napięć i prądów w celu przesyłania informacji lub za pomocą czujników do przekształcania sygnału fizycznego (takiego jak fala dźwiękowa) w postać elektryczną, od której oczekuje się, że komputer podejmie decyzję. Konwerter analogowo-cyfrowy (A / D) przekształca te sygnały na zestaw równomiernie rozmieszczonych (w czasie) dyskretnych próbek lub szereg czasowy! Metody analizy szeregów czasowych są podstawą prawie wszystkich współczesnych algorytmów przetwarzania sygnałów.

Na przykład przetwarzanie mowy polega na użyciu mikrofonu do przekształcenia fali dźwiękowej w napięcie elektryczne, które jest próbkowane przez przetwornik A / D, po czym tworzony jest model szeregów czasowych sygnału. Na przykład liniowe kodery predykcyjne (LPC) w telefonach komórkowych tworzą model ARMA wypowiadanych słów i przesyłają współczynniki modelu (wraz z indeksem reprezentującym sygnał pobudzenia ze wstępnie zdefiniowanego słownika) zamiast samych próbek danych w celu osiągnięcia kompresja danych.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.