W ustawieniu regresji można faktycznie sprawdzić, czy prosta agregacja jest właściwym wyborem. Załóżmy, że mamy dane miesięczne i danych dziennych (ze stałymi dni w miesiącu). Załóżmy, że interesuje Cię regresja:X τ mYtXτm
Yt=α+βX¯t+ut,(1)
gdzie
X¯t=1m∑h=0m−1Xtm−h.
Zakładamy, że dla każdego miesiąca codzienne obserwacje wynoszą . W tym przypadku przyjęliśmy, że każdy dzień ma taką samą wagę, co wyraźnie stanowi ograniczenie. Możemy więc założyć, że bardziej ogólny model obejmuje:X 30 ( T - 1 ) + 1 , . . . , X 30 ttX30(t−1)+1,...,X30t
Yt=α+βX¯(w)t+ut,(2)
z
X(w)t=∑h=1m−1whXtm−h.
Istnieje wiele artykułów, które eksplorują różne możliwe opcje . Zwykle przyjmuje się, że , dla pewnej funkcji która zależy od parametrów . Ten typ modelu regresji nazywany jest regresją MIDAS (mieszanie próbek DAta).w h = g ( h ,whg αwh=g(h,α)gα
Model (2) zagnieżdża model (1), więc można przetestować hipotezę, że . Jeden z takich testów jest proponowany w tym artykule (jestem jednym z autorów, przepraszam za bezwstydną wtyczkę, napisałem również pakiet R midasr do szacowania i testowania regresji MIDAS, w których ten test jest zaimplementowany).wh=1m
W ustawieniach nieregresyjnych istnieją wyniki, które pokazują, że agregacja może zmienić właściwości szeregów czasowych. Na przykład, jeśli agregujesz procesy AR (1), które mają pamięć krótkotrwałą (korelacja między dwoma obserwacjami szeregów czasowych szybko zanika, gdy zwiększa się odległość między nimi), możesz uzyskać proces z pamięcią długoterminową.
Podsumowując, odpowiedź jest taka, że ważność zastosowania statystyki do danych zagregowanych jest pytaniem statystycznym. W zależności od modelu możesz zbudować hipotezę, czy jest to poprawna aplikacja, czy nie.