Jestem absolwentem biznesu i ekonomii, który obecnie studiuje magister inżynierii danych. Podczas badania regresji liniowej (LR), a następnie analizy szeregów czasowych (TS), przyszło mi do głowy pytanie. Po co tworzyć zupełnie nową metodę, tj. Szeregi czasowe (ARIMA), zamiast stosować wielokrotną regresję liniową i dodawać do niej zmienne opóźnione (z kolejnością opóźnień określonych za pomocą ACF i PACF)? Nauczyciel zasugerował więc, żebym napisał krótki esej na ten temat. Nie szukałem pomocy z pustymi rękami, więc przeprowadziłem badania na ten temat.
Wiedziałem już, że przy stosowaniu LR, jeśli naruszone zostaną założenia Gaussa-Markowa, regresja OLS jest niepoprawna i że dzieje się tak przy użyciu danych szeregów czasowych (autokorelacja itp.). (inne pytanie na ten temat, jedno założenie GM jest takie, że zmienne niezależne powinny być normalnie rozmieszczone? lub tylko zmienna zależna zależna od zmiennych niezależnych?)
Wiem także, że kiedy używam rozproszonej regresji opóźnienia, co myślę, że proponuję tutaj, i używając OLS do oszacowania parametrów, może (oczywiście) powstać wielokoliniowość między zmiennymi, więc oszacowania byłyby błędne.
W podobnym poście o TS i LR tutaj @ IrishStat powiedział:
... model regresji jest szczególnym przypadkiem modelu funkcji przenoszenia, znanego również jako model regresji dynamicznej lub model XARMAX. Istotnym punktem jest identyfikacja modelu w szeregach czasowych, tj. Odpowiednie różnice, odpowiednie opóźnienia X, odpowiednia struktura ARIMA, odpowiednia identyfikacja nieokreślonej struktury deterministycznej, takiej jak impulsy, przesunięcia poziomu, lokalne trendy czasowe, impulsy sezonowe i włączenie zmian parametrów lub wariancji błędów należy wziąć pod uwagę.
(Przeczytałem także jego artykuł w Autoboxie o Box Jenkins vs. LR.) Ale to wciąż nie rozwiązuje mojego pytania (a przynajmniej nie wyjaśnia mi różnych mechanizmów RL i TS).
Oczywiste jest, że nawet w przypadku zmiennych opóźnionych pojawiają się problemy OLS i nie jest ono wydajne ani poprawne, ale czy przy maksymalnym prawdopodobieństwie problemy te występują? Czytałem, że ARIMA jest szacowana na podstawie maksymalnego prawdopodobieństwa, więc jeśli LR z opóźnieniami jest szacowana za pomocą ML zamiast OLS, to czy daje ona „prawidłowe” współczynniki (załóżmy, że uwzględniamy również terminy opóźnionego błędu, takie jak MA zamówienia q).
Krótko mówiąc, czy jest problem OLS? Czy problem został rozwiązany przy użyciu ML?