Regresja szeregów czasowych z nakładającymi się danymi

Widzę model regresji, który regresuje zwroty z indeksu giełdowego z opóźnieniem (12 miesięcy) Rentowność z tego samego indeksu giełdowego, marżę kredytową (różnica między średnią miesięczną wolną od ryzyka obligacją a obligacją korporacyjną) plony), wskaźnik inflacji r / r oraz wskaźnik produkcji przemysłowej r / r.

Wygląda to w ten sposób (chociaż w tym przypadku zastąpiłbyś dane właściwe dla Indii):

SP500YOY(T) = a + b1*SP500YOY(T-12) + b2*CREDITSPREAD(T) +    
b4*INDUSTRIALPRODUCTION(T+2) + b3*INFLATION(T+2) + b4*INFLATIONASYMM(T+2)

SP500YOY to zwroty z roku na rok dla indeksu SP500 Aby to obliczyć, obliczana jest średnia miesięczna wartości SP500, a następnie przeliczana na zwroty z roku na rok dla każdego miesiąca (tj. 10 stycznia - 11 stycznia, 10 lutego - 11 lutego, 10 marca - 11 marca ...). Po stronie zmiennych objaśniających stosowana jest 12-miesięczna opóźniona wartość SP500YOY wraz z CREDITSPREAD w czasie T oraz INFLATION i INDUSTRIALPRODUCTION dwa okresy AHEAD. INFLATIONASYMM to atrapa określająca, czy inflacja przekracza wartość progową 5,0%. Indeks w nawiasie pokazuje indeks czasu dla każdej zmiennej.

Jest to szacowane na podstawie standardowej regresji liniowej OLS. Aby użyć tego modelu do prognozowania zwrotów z roku SP500 na 1,2 i 3 miesiące wcześniej, należy wygenerować 3,4 i 5-miesięczne prognozy dla inflacji i indeksu produkcji przemysłowej. Prognozy te są wykonywane po dopasowaniu modelu ARIMA do każdego z nich osobno. Prognozy CreditSpread na 1, 2 i 3 miesiące naprzód są przedstawiane jako szacunki mentalne.

Chciałbym wiedzieć, czy ta regresja liniowa OLS jest poprawna / niepoprawna, wydajna / nieefektywna lub ogólnie poprawna praktyka statystyczna.

Pierwszym problemem, jaki widzę, jest użycie nakładających się danych. tj. dzienne wartości indeksu giełdowego są uśredniane co miesiąc, a następnie wykorzystywane do obliczania rocznych zwrotów, które są zwijane co miesiąc. To powinno sprawić, że termin błędu zostanie autokorelowany. Sądzę, że należałoby zastosować pewną „korektę” zgodnie z jednym z poniższych:

Heteroscedastyczność White'a jest zgodnym estymatorem kowariancji
Estymator heteroscedastyczności Neweya i Westa oraz autokorelacji (HAC)
wersja Hansen & Hodrick zgodna z heteroscedastycznością

Czy naprawdę ma sens zastosowanie standardowej regresji liniowej OLS (bez żadnych korekt) do takich nakładających się danych, a ponadto, należy stosować prognozy ARIMA z 3 okresami przed okresem zmiennych objaśniających do zastosowania w oryginalnej regresji liniowej OLS do prognozowania SP500YOY? Nie widziałem takiej formy wcześniej, a zatem nie mogę jej tak naprawdę osądzić, z wyjątkiem korekty pod kątem nakładających się obserwacji.

regression time-series autocorrelation

— Vishal Belsare
źródło

Proszę nie przesyłać pocztą .

— Joshua Ulrich

Oto kilka artykułów na ten temat:

Britten-Jones i Neuberger, Poprawione wnioskowanie i szacowanie w regresji z nakładającymi się obserwacjami

Harri & Brorsen, Problem nakładających się danych

— R_Coholic
źródło

Z dokumentów tych nie wynika jasno, jak zastosować te poprawki w praktyce. Czy jest gdzieś bardziej praktyczny przewodnik lub samouczek?

— rinspy

@rinspy Zobacz quant.stackexchange.com/questions/35216/..., aby uzyskać kod na Hansen & Hodrick

— Candamir

Czy możesz podać podsumowanie informacji zawartych w tych artykułach oraz sposób, w jaki stanowią odpowiedź na pytanie?

— gung - Przywróć Monikę