O co chodzi z autokorelacją?


13

Na wstępie mam dość głębokie podstawy matematyczne, ale tak naprawdę nigdy nie zajmowałem się szeregami czasowymi ani modelowaniem statystycznym. Więc nie musisz być dla mnie bardzo delikatny :)

Czytam ten artykuł o modelowaniu zużycia energii w budynkach komercyjnych, a autor twierdzi, że:

[Obecność autokorelacji powstaje], ponieważ model został opracowany na podstawie danych szeregów czasowych zużycia energii, które są z natury autokorelowane. Każdy czysto deterministyczny model danych szeregów czasowych będzie miał autokorelację. Stwierdzono, że autokorelacja zmniejsza się, jeśli w modelu uwzględniono [więcej współczynników Fouriera]. Jednak w większości przypadków model Fouriera ma niskie CV. Model może być zatem akceptowalny do celów praktycznych, które (sic) nie wymagają wysokiej precyzji.

0.) Co oznacza „każdy czysto deterministyczny model danych szeregów czasowych będzie miał autokorelację”? Mogę niejasno zrozumieć, co to oznacza - na przykład, jak można się spodziewać następnego punktu w szeregu czasowym, jeśli miałby 0 autokorelacji? Oczywiście nie jest to argument matematyczny, dlatego jest to 0 :)

1.) Miałem wrażenie, że autokorelacja w zasadzie zabiła twój model, ale myśląc o tym, nie rozumiem, dlaczego tak powinno być. Dlaczego autokorelacja jest złą (lub dobrą) rzeczą?

2.) Rozwiązaniem, które słyszałem o radzeniu sobie z autokorelacją, jest różnicowanie szeregów czasowych. Bez próby czytania w myślach autora, dlaczego nie zrobiłoby się inaczej , gdyby istniała nieistotna autokorelacja?

3.) Jakie ograniczenia nakładają na model znaczące autokorelacje? Czy to gdzieś założenie (tj. Normalnie rozłożone resztki podczas modelowania z prostą regresją liniową)?

W każdym razie przepraszam, jeśli są to podstawowe pytania i z góry dziękuję za pomoc.

Odpowiedzi:


10
  1. Myślę, że autor prawdopodobnie mówi o resztkach modelu. Argumentuję to ze względu na jego oświadczenie o dodaniu większej liczby współczynników Fouriera; jeśli, jak wierzę, pasuje do modelu czterokierunkowego, wówczas dodanie większej liczby współczynników zmniejszy autokorelację reszt kosztem wyższego CV.

    Jeśli masz problemy z wizualizacją tego, pomyśl o następującym przykładzie: załóżmy, że masz następujący zestaw danych 100 punktów, który pochodzi z dwuskładnikowego modelu czterokierunkowego z dodanym białym szumem gaussowskim:

    Punkty danych

    Poniższy wykres pokazuje dwa pasowania: jeden wykonany z 2 współczynnikami Fouriera, a drugi z 200 współczynnikami Fouriera:

    Pasuje

    Jak widać, 200 współczynników Fouriera lepiej pasuje do DATAPOINTS, a dopasowanie 2 współczynników (model „rzeczywisty”) lepiej pasuje do MODELU. Oznacza to, że autokorelacja reszt modelu z 200 współczynnikami prawie na pewno będzie bliższa zeru przy wszystkich opóźnieniach niż reszty modelu 2 współczynników, ponieważ model z 200 współczynnikami pasuje dokładnie do prawie wszystkich punktów danych (tzn. Reszty będą prawie wszystkie zera). Co byś jednak pomyślał, gdyby zostawić, powiedzmy, 10 punktów danych z próbki i dopasować te same modele? Model 2-współczynnikowy pozwoli lepiej przewidzieć punkty danych, które wyłączyłeś z próbki! W ten sposób wygeneruje niższy błąd CV w przeciwieństwie do modelu o współczynniku 200; nazywa się to nadmiernym dopasowaniem. Powodem tej „magii” jest to, że to, co CV faktycznie próbuje zmierzyć, to błąd przewidywania , tj. Jak dobrze twój model przewiduje punkty danych, których nie ma w zestawie danych.

  2. W tym kontekście autokorelacja reszt jest „zła”, ponieważ oznacza, że ​​nie modelujesz wystarczająco dobrze korelacji między punktami danych. Głównym powodem, dla którego ludzie nie różnicują serii, jest to, że tak naprawdę chcą modelować proces leżący u podstaw tego procesu. Jedna z różnic w szeregach czasowych zwykle pozwala pozbyć się okresowości lub trendów, ale jeśli ta okresowość lub trend jest faktycznie tym, co próbujesz modelować, to różnicowanie ich może wydawać się ostatecznością (lub opcją w celu modelowania reszt za pomocą bardziej złożony proces stochastyczny).
  3. To naprawdę zależy od obszaru, nad którym pracujesz. Może to stanowić problem również z modelem deterministycznym. Jednak w zależności od formy autokorelacji można łatwo zobaczyć, kiedy autokorelacja powstaje z powodu np. Szumu migotania, szumu podobnego do ARMA lub jeśli jest to rezydualne źródło okresowe (w takim przypadku może być konieczne zwiększenie liczba współczynników Fouriera).

Dziękuję za odpowiedź, a jeśli chcesz, chciałbym spróbować je przetrawić pojedynczo. Dla 1.), czy istnieje intuicyjny sposób zrozumienia, dlaczego włączenie większej liczby współczynników Fouriera zmniejsza autokorelację i zwiększa CV (zakładam, że jest to CV reszt)?
BenDundee

1
Dodałem przykład. Mam nadzieję, że to pomoże. I tak, on odnosi się do CV pozostałych.
Néstor

Ahh ok, myślę, że rozumiem. Jest to związane z tym, o co chciałem zapytać w odniesieniu do 2. Jak można załatać ten model (ogólnie), aby lepiej zrozumieć korelację? Czy możesz dodać ograniczenie dotyczące macierzy korelacji współczynników Fouriera?
BenDundee

1
To trudne zadanie, na którym też jestem. Zwłaszcza w przypadku okresowych modeli deterministycznych bardzo trudno jest ustalić, jakiego rodzaju modelu hałasu użyć. Dużym problemem jest to, że nie znasz a priori liczby współczynników modelu Fouriera, więc są to zmienne losowe, które również musisz modelować. W obecności małej liczby punktów danych zdecydowanie wybrałbym MCMC z odwracalnym skokiem, aby to wymodelować. Chciałbym wypróbować różne modele hałasu i porównać między nimi AIC / BIC. W przypadku dużych zestawów danych jest to jednak niewykonalne.
Néstor

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.