Zdajesz nie potrzeba założenia na 4. momentów dla spójności estymatora OLS, ale trzeba robić założeń potrzebujemy na wyższych momentówx i ϵ dla asymptotycznej normalności i konsekwentnego szacowania, czym jest asymptotyczna macierz kowariancji.
W pewnym sensie jest to jednak punkt matematyczny, techniczny, a nie praktyczny. Aby OLS działał dobrze w skończonych próbkach, w pewnym sensie wymaga więcej niż minimalnych założeń niezbędnych do osiągnięcia asymptotycznej spójności lub normalności, ponieważn→∞.
Wystarczające warunki dla spójności:
Jeśli masz równanie regresji:
yi=x′iβ+ϵi
Estymator OLS można zapisać jako:
b^
b^=β+(X′Xn)−1(X′ϵn)
Aby zachować spójność , musisz być w stanie zastosować prawo wielkich liczb Kołmogorowa lub, w przypadku szeregów czasowych z szeregową zależnością, coś w rodzaju twierdzenia Ergodycznego Karlina i Taylora, aby:
1nX′X→pE[xix′i]1nX′ϵ→pE[x′iϵi]
Inne potrzebne założenia to:
- E[xix′i] ma pełną rangę, a zatem macierz jest odwracalna.
- Regresory są z góry określone lub ściśle egzogeniczne, więc .E[xiϵi]=0
Następnie a otrzymasz(X′Xn)−1(X′ϵn)→p0b^→pβ
Jeśli chcesz centralne twierdzenie graniczne zastosować wtedy trzeba założenia dotyczące wyższych momentach, na przykład, gdzie . Centralne twierdzenie o limicie daje asymptotyczną normalność i pozwala mówić o standardowych błędach. Aby istniał drugi moment , potrzebujesz czwartego momentu i . Chcesz argumentować, że gdzieE[gig′i]gi=xiϵib^E[gig′i]xϵn−−√(1n∑ix′iϵi)→dN(0,Σ)Σ=E[xix′iϵ2i] . Aby to zadziałało, musi być skończona.Σ
Ładna dyskusja (która motywowała ten post) znajduje się w Econometrics Hayashi . (Zobacz także s. 149, aby zapoznać się z 4. momentami i oszacowaniem macierzy kowariancji).
Dyskusja:
Te wymagania dotyczące 4 momentów są prawdopodobnie punktem technicznym, a nie praktycznym. Prawdopodobnie nie spotkasz się z rozkładami patologicznymi, jeśli jest to problem w codziennych danych? Chodzi o bardziej powszechne lub inne założenia OLS.
Innym pytaniem, na które niewątpliwie odpowiedziano w innym miejscu na Stackexchange, jest to, jak duża próbka jest potrzebna, aby próbki skończone zbliżyły się do asymptotycznych wyników. W pewnym sensie fantastyczne wartości odstające prowadzą do powolnej konwergencji. Na przykład spróbuj oszacować średnią rozkładu logarytmicznego z naprawdę dużą wariancją. Średnia próbki jest spójnym, bezstronnym estymatorem średniej populacji, ale w tym logarytmicznym przypadku z szalonym nadmiarem kurtozy itp. (Link), skończone wyniki próby są naprawdę bardzo złe.
Skończone vs. nieskończone jest niezwykle ważnym rozróżnieniem w matematyce. To nie jest problem, który napotykasz w codziennych statystykach. Problemy praktyczne są bardziej w kategorii małej kontra dużej. Czy wariancja, kurtoza itp. Są wystarczająco małe, aby uzyskać rozsądne oszacowania na podstawie wielkości mojej próbki?
Patologiczny przykład, w którym estymator OLS jest spójny, ale nie asymptotycznie normalny
Rozważać:
yi=bxi+ϵi
Gdzie ale jest rysowane z rozkładu t o 2 stopniach swobody, więc . Oszacowanie OLS jest zbieżne z prawdopodobieństwem do ale rozkład próbki dla oszacowania OLS zwykle nie jest rozkładem. Poniżej przedstawiono rozkład empiryczny dla oparty na 10000 symulacjach regresji z 10000 obserwacji.
xi∼N(0,1)ϵiVar(ϵi)=∞bb^b^
Rozkład nie jest normalny, ogony są zbyt ciężkie. Ale jeśli zwiększysz stopnie swobody do 3, aby istniał drugi moment , wówczas obowiązuje centralny limit i otrzymujesz:
b^ϵi
Kod do wygenerowania:
beta = [-4; 3.7];
n = 1e5;
n_sim = 10000;
for s=1:n_sim
X = [ones(n, 1), randn(n, 1)];
u = trnd(2,n,1) / 100;
y = X * beta + u;
b(:,s) = X \ y;
end
b = b';
qqplot(b(:,2));