W zależności od tego, co dokładnie rozumiesz przez „3 powtórzenia na kwartał”, model danych panelowych ( wikipedia ) może mieć sens. Oznaczałoby to, że wykonujesz trzy pomiary co kwadrans, po jednym z każdego z trzech różnych źródeł, które pozostają niezmienne w czasie. Twoje dane wyglądałyby mniej więcej tak:
obs quarter value
A 1 2.2
A 2 2.3
A 3 2.4
B 1 1.8
B 2 1.7
B 3 1.6
C 1 3.3
C 2 3.4
C 3 3.5
Jeśli na to właśnie patrzysz, istnieje wiele modeli do pracy z danymi panelu. Oto przyzwoita prezentacja, która obejmuje niektóre podstawowe R, których użyłbyś do przeglądania danych panelu. Dokument ten jest nieco głębszy, choć z punktu widzenia ekonometrii.
Jeśli jednak dane nie pasują do metodologii danych panelowych, dostępne są inne narzędzia do „danych z puli”. Definicja z tego artykułu (pdf) :
Łączenie danych oznacza analizę statystyczną z wykorzystaniem wielu źródeł danych dotyczących wielu populacji. Obejmuje uśrednianie, porównania i powszechne interpretacje informacji. Powstają także różne scenariusze i problemy w zależności od tego, czy źródła danych i populacje są takie same / podobne lub różne.
Jak widać, z tej definicji techniki, których będziesz używać, będą zależały od tego, czego dokładnie oczekujesz od swoich danych.
Gdybym miał zasugerować miejsce do rozpoczęcia, zakładając, że trzy losowania w każdym kwartale są spójne w czasie, powiedziałbym, że zacznij od zastosowania estymatora efektów stałych (znanego również jako estymator wewnątrz) z panelowym modelem danych twojego dane.
W powyższym przykładzie kod wygląda następująco:
> Panel = data.frame(value=c(2.2,2.3,2.4,1.8,1.7,1.9,3.3,3.4,3.5),
quarter=c(1,2,3,1,2,3,1,2,3),
obs=c("A","A","A","B","B","B","C","C","C"))
> fixed.dum <-lm(value ~ quarter + factor(obs), data=Panel)
> summary(fixed.dum)
Co daje nam następujące wyniki:
Call:
lm(formula = value ~ quarter + factor(obs), data = Panel)
Residuals:
1 2 3 4 5 6 7
-1.667e-02 -8.940e-17 1.667e-02 8.333e-02 -1.000e-01 1.667e-02 -1.667e-02
8 9
1.162e-16 1.667e-02
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.13333 0.06055 35.231 3.47e-07 ***
quarter 0.08333 0.02472 3.371 0.019868 *
factor(obs)B -0.50000 0.04944 -10.113 0.000162 ***
factor(obs)C 1.10000 0.04944 22.249 3.41e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.06055 on 5 degrees of freedom
Multiple R-squared: 0.9955, Adjusted R-squared: 0.9928
F-statistic: 369.2 on 3 and 5 DF, p-value: 2.753e-06
Tutaj wyraźnie widać wpływ czasu we współczynniku na zmienną ćwiartkową, a także efekt bycia w grupie B lub grupie C (w przeciwieństwie do grupy A).
Mam nadzieję, że wskaże ci to gdzieś we właściwym kierunku.