Gratulacje, znalazłeś błąd. Prognozy dla dynlm
nowych danych są niepoprawne, jeśli zostaną użyte zmienne opóźnione. Aby zobaczyć, dlaczego spójrz na wynik
predict(model)
predict(model,newdata=data)
Wyniki powinny być takie same, ale nie są. Bez newdata
argumentów predict
funkcja w zasadzie pobiera model
element z dynlm
wyniku. Za pomocą newdata
argumentu predict
próbuje utworzyć nową matrycę modelu newdata
. Ponieważ wiąże się to z analizowaniem dostarczonej formuły, dynlm
a formuła ma funkcję L
, która jest zdefiniowana tylko wewnętrznie w funkcji dynlm
, powstaje niepoprawna macierz modelu. Jeśli spróbujesz debugować, zobaczysz, że opóźniona zmienna zależna nie jest opóźniana w przypadku podania newdata
argumentu.
Co możesz zrobić, to opóźnić zależną zmienną i uwzględnić ją w newdata
. Oto kod ilustrujący to podejście. Używam, set.seed
aby było łatwo powtarzalne.
library(dynlm)
set.seed(1)
y<-arima.sim(model=list(ar=c(.9)),n=10) #Create AR(1) dependant variable
A<-rnorm(10) #Create independant variables
B<-rnorm(10)
C<-rnorm(10)
y<-y+.5*A+.2*B-.3*C #Add relationship to independant variables
data=cbind(y,A,B,C)
#Fit linear model
model<-dynlm(y~A+B+C+L(y,1),data=data)
Oto błędne zachowanie:
> predict(model)
2 3 4 5 6 7 8 9 10
3.500667 2.411196 2.627915 2.813815 2.468595 1.733852 2.114553 1.423225 1.470738
> predict(model,newdata=data)
1 2 3 4 5 6 7 8 9 10
2.1628335 3.7063579 2.9781417 2.1374301 3.2582376 1.9534558 1.3670995 2.4547626 0.8448223 1.8762437
Utwórz newdata
#Forecast fix.
A<-c(A,rnorm(1)) #Assume we already have 1-step forecasts for A,B,C
B<-c(B,rnorm(1))
C<-c(C,rnorm(1))
newdata<-ts(cbind(A,B,C),start=start(y),freq=frequency(y))
newdata<-cbind(lag(y,-1),newdata)
colnames(newdata) <- c("y","A","B","C")
Porównaj prognozę z dopasowaniem modelu:
> predict(model)
2 3 4 5 6 7 8 9 10
3.500667 2.411196 2.627915 2.813815 2.468595 1.733852 2.114553 1.423225 1.470738
> predict(model,newdata=newdata)
1 2 3 4 5 6 7 8 9 10 11
NA 3.500667 2.411196 2.627915 2.813815 2.468595 1.733852 2.114553 1.423225 1.470738 1.102367
Jak widać w przypadku danych historycznych, prognoza jest zbieżna, a ostatni element zawiera prognozę o 1 krok do przodu.
dynlm
pakietu nie zapewni prognoz dla zmiennych zależnych. Dostarczenie prognoz dla zmiennych zależnych będzie wymagać modelu, aby je wyjaśnić i prawdopodobnie dodatkowych danych. Sugeruję przeczytanie czegoś o regresji wielowymiarowej, takiej jak „Applied Multivariate Statistics Analysis” autorstwa Johnsona i Wichern. lub kurs z prognozowania: duke.edu/~rnau/411home.htm