Jeśli powtórzę każdą obserwację próbki w modelu regresji liniowej i powtórzę regresję, jak wpłynie to na wynik?

15

Powiedzmy, że mam N obserwacji, być może wiele czynników, i powtarzam każdą obserwację dwa razy (lub M razy), jak regresja na tym nowym zestawie wielkości NM porównałaby się z regresją na samych oryginalnych obserwacjach?

regression linear-model multiple-regression

— Palace Chan
źródło

13

Pod względem koncepcyjnym nie dodajesz żadnych „nowych” informacji, ale „bardziej je znasz”.

Dałoby to zatem te same współczynniki regresji przy mniejszych standardowych błędach.

Na przykład w Stacie funkcja rozwinięcia x duplikuje każdą obserwację x razy.

sysuse auto, clear
regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515    .001586    -2.43   0.018    -.0070138   -.0006891
      length |  -.0795935   .0553577    -1.44   0.155    -.1899736    .0307867
       _cons |   47.88487    6.08787     7.87   0.000       35.746    60.02374
------------------------------------------------------------------------------

expand 5

regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515   .0006976    -5.52   0.000    -.0052232   -.0024797
      length |  -.0795935   .0243486    -3.27   0.001    -.1274738   -.0317131
       _cons |   47.88487   2.677698    17.88   0.000     42.61932    53.15043
------------------------------------------------------------------------------

Jak widać, niegdyś nieistotne współczynniki (długość) stają się istotne statystycznie w modelu rozszerzonym, reprezentując precyzję, z jaką „wiesz”, co wiesz.

— pmgjones
źródło

Tak, standardowe błędy rzeczywiście spadają. Niektórzy zalecają do tego ważoną regresję liniową. Czy istnieje metoda, aby to naprawić?

— BBDynSys,

3

w^{*} = {argmin}_{w} | | X w - y | |^{2)}

$w^* = \mbox{argmin}_w ||Xw - y||^2$

X

$X$

y

$y$

M

$M$

M

$M$

— Innuo
źródło

Zgadzam się, ale myślę, że statystyki i standardowe błędy powinny ulec zmianie, biorąc pod uwagę zmianę z N na NM?

— Palace Chan,

M * N - P

$M*N - P$

N

$N$

P

$P$

M

$M$