Założenia do uzyskania estymatora OLS

Czy ktoś może mi krótko wyjaśnić, dlaczego każde z sześciu założeń jest potrzebne do obliczenia estymatora OLS? Odkryłem tylko o wielokoliniowości - że jeśli istnieje, nie możemy odwrócić macierzy (X'X), a tym samym oszacować ogólny estymator. A co z innymi (np. Liniowość, błędy o wartości zero, itp.)?

least-squares assumptions

— Ieva
źródło

Powiązane: Jaka jest pełna lista typowych założeń regresji liniowej?

— Gung - Przywróć Monikę

Szukasz wyjaśnienia pojęciowego, czy potrzebujesz prezentacji matematycznej?

— Gung - Przywróć Monikę

Zwykłe najmniejsze kwadraty to procedura numeryczna, nie trzeba wiele założeń, aby ją obliczyć (oprócz odwracalności). Założenia są potrzebne, aby uzasadnić wnioskowanie na podstawie tego, patrz moja odpowiedź wczoraj: stats.stackexchange.com/questions/148803/…

— kjetil b halvorsen

Dokładnie do jakich „sześciu założeń” masz na myśli? Wspominasz tylko o trzech.

— whuber

Odnoszę się do 1) liniowości 2) braku wielokoliniowości 3) błędów średniej zerowej 4) błędów sferycznych (homoscedastyczność i brak autokorelacji) 5) niestochastycznych regresorów i 6) rozkładu normalnego. Tak więc, jak zrozumiałem z poniższej odpowiedzi, tylko pierwsze trzy są potrzebne do uzyskania estymatora, a inne są potrzebne tylko, aby upewnić się, że estymator jest NIEBIESKI?

— Ieva

Odpowiedzi:

Zawsze możesz obliczyć estymator OLS, z wyjątkiem przypadku, gdy masz doskonałą wielokoliniowość. W tym przypadku macie doskonałą zależność wieloliniową w macierzy X. W związku z tym założenie pełnej rangi nie zostało spełnione i nie można obliczyć estymatora OLS z powodu problemów z odwracalnością.

Technicznie nie potrzebujesz innych założeń OLS do obliczenia estymatora OLS. Jednak zgodnie z twierdzeniem Gaussa-Markowa należy spełnić założenie OLS (założenia clrm), aby estymator był NIEBIESKI.

Obszerne omówienie twierdzenia Gaussa-Markowa i jego matematycznej pochodnej znajduje się tutaj:

http://economictheoryblog.com/2015/02/26/markov_theorem/

Ponadto, jeśli szukasz przeglądu założeń OLS, tj. Ile ich jest, czego wymagają i co się stanie, jeśli złamiesz pojedyncze założenie OLS, możesz znaleźć tutaj szczegółową dyskusję:

http://economictheoryblog.com/2015/04/01/ols_assumptions/

Mam nadzieję, że to pomaga, na zdrowie!

— Simon Degonda
źródło

Poniższe opiera się na prostych przekrojach, dla szeregów czasowych i paneli jest nieco inaczej.

W populacji, a zatem w próbie, model można zapisać jako: Jest to założenie o liniowości, które jest czasami źle rozumiane. Model powinien być liniowy w parametrach - mianowicie. Za pomocąmożesz robić, co chcesz $\begin{aligned} Y & = β_{0} + β_{1} x_{1} + \dots + β_{k} x_{k} + u \\ = X β + u \end{aligned}$ $\begin{align} \newcommand{\Var}{\rm Var} \newcommand{\Cov}{\rm Cov} Y &= \beta_0 + \beta_1 x_1 + … + \beta_k x_k + u \\ &= X\beta + u \end{align}$ $\beta_k$ $x_i$ . Dzienniki, kwadraty itp. Jeśli tak nie jest, model OLS nie może oszacować - potrzebujesz innego nieliniowego estymatora.
Losowa próbka (dla przekrojów) Jest to potrzebne do wnioskowania i właściwości próbki. Jest to nieco nieistotne dla czystej mechaniki OLS.
Nie idealny kolinearności oznacza to, że nie można osiągnąć idealny związek między . Jest to założenie, które zapewnia, że jest jednostkowe, tak że istnieje. $x_i$ $(X’X)$ $(X’X)^{-1}$
Zero średniej warunkowej: . Oznacza to, że poprawnie określiłeś model, tak że: nie ma pominiętych zmiennych, a oszacowana forma funkcjonalna jest poprawna w stosunku do (nieznanego) modelu populacji. Jest to zawsze problematyczne założenie w przypadku OLS, ponieważ nie ma sposobu, aby wiedzieć, czy jest on rzeczywiście ważny, czy nie. $E(u|X) = 0$
Wariancja terminu błędów jest stała, zależna od wszystkich : Znów nie oznacza to nic dla mechaniki OLS, ale zapewnia, że zwykłe standardowe błędy są prawidłowe. $X_i$ $\Var(u|X)=\sigma^2$
Normalność; składnik błędu u jest niezależny od występuje po . Ponownie nie ma to znaczenia dla mechaniki OLS, ale zapewnia, że rozkład próbkowania jest normalny, . $X_i$ $u \sim N(0,\sigma^2)$ $\beta_k$ $\hat{\beta_k} \sim N(\beta_k , \Var(\hat{\beta_k}))$

Teraz implikacje.

Poniżej 1 - 6 (założenia klasycznego modelu liniowego) OLS jest NIEBIESKI (najlepszy liniowy obiektywny estymator), najlepszy w sensie najniższej wariancji. Jest także skuteczny wśród wszystkich estymatorów liniowych, a także wszystkich estymatorów, które wykorzystują jakąś funkcję x. Co ważniejsze, poniżej 1 - 6, OLS jest także obiektywnym estymatorem minimalnej wariancji. Oznacza to, że spośród wszystkich obiektywnych estymatorów (nie tylko liniowych) OLS ma najmniejszą wariancję. OLS jest również spójny.
Poniżej 1 - 5 (założenia Gaussa-Markowa) OLS jest NIEBIESKI i wydajny (jak opisano powyżej).
Poniżej 1–4 OLS jest bezstronny i konsekwentny.

W rzeczywistości OLS jest również spójny, przy słabszym założeniu niż a mianowicie, że: i . Różnica w stosunku do założeń 4 polega na tym, że zgodnie z tym założeniem nie trzeba idealnie nawiązywać do zależności funkcjonalnej. $(4)$ $(1)\ E(u) = 0$ $(2)\ \Cov(x_j , u) = 0$

— Repmat
źródło

Myślę, że malujesz zbyt ciemny obraz o warunku zerowym. Gdyby istniało odchylenie, wówczas minimalizacja sumy kwadratowych odchyleń nie byłaby właściwa, ale z drugiej strony można uchwycić odchylenie, przesuwając równanie regresji (pochłaniając odchylenie do

), a następnie Ci nie mają średnią 0. innymi słowy, 4 jest jednocześnie niemożliwe do zweryfikowania i łatwe do zignorowania.

β_{0}

$\beta_0$

— user3697176,

Przepraszam, ale się nie zgadzam. A może po prostu cię źle zrozumiałem? Czy możesz opracować lub podać referencje?

— Repmat

Nie mówię o celowo zniekształconym oszacowaniu (takim jak regresja kalenicy), który, jak sądzę, nie był zainteresowany PO. Mówię o modelu o postaci

w którym --- z jakiegoś dziwnego powodu --- reszta

ma średnią

. W takim przypadku łatwo jest przeprowadzić formalną transformację do

y = β_{0} + β_{1} x_{1} + \dots + β_{x} x_{n} + ϵ

$y=\beta_0 +\beta_1x_1+\ldots+\beta_x x_n + \epsilon$

ϵ

$\epsilon$

α \neq 0

$\alpha\ne0$

, gdzie średnia

wynosi zero.

y = α + β_{0} + β_{1} x_{1} + \dots + β_{x} x_{n} + η

$y=\alpha+\beta_0 +\beta_1x_1+\ldots+\beta_x x_n + \eta$

η

$\eta$

— user3697176

@ user3697176 To, co piszesz, jest nieprawidłowe. Właśnie opublikowałem odpowiedź wyjaśniającą dlaczego.

— Alecos Papadopoulos

Jeśli założenie 1 nie jest spełnione, czy nadal nie możemy użyć OLS do oszacowania kowariancji populacji (chociaż wiemy, że nie ma zależności liniowej)?

— maks

Komentarz w innym pytaniu wzbudził wątpliwości co do znaczenia warunku , argumentując, że można go poprawić poprzez włączenie stałego terminu do specyfikacji regresji, a zatem „można go łatwo zignorować”. $E(\mathbf u \mid \mathbf X) =0$

Tak nie jest. Włączenie stałego składnika do regresji pochłonie potencjalnie niezerową średnią warunkową błędu, jeśli założymy, że ta średnia warunkowa jest już stała, a nie funkcją regresorów . Jest to kluczowe założenie, które należy przyjąć niezależnie od tego, czy uwzględniamy stały termin, czy nie:

E (u ∣ X) = c o n s t .

$E(\mathbf u \mid \mathbf X) =const.$

Jeśli tak się stanie, wówczas niezerowa średnia staje się uciążliwością, którą możemy po prostu rozwiązać, dołączając stały składnik.

Ale jeśli tak się nie stanie (tj. Jeśli średnia warunkowa nie jest stałą zerową lub niezerową ), włączenie terminu stałego nie rozwiązuje problemu: to, co „absorbuje” w tym przypadku, jest wielkością zależy to od konkretnej próby i realizacji regresorów. W rzeczywistości nieznany współczynnik przypisany do szeregu jedności nie jest tak naprawdę stały, ale zmienny, w zależności od regresorów poprzez niestałą średnią warunkową składnika błędu.

Co to oznacza? Aby uprościć, załóżmy najprostszy przypadek, w którym ( indeksuje obserwacje), ale . To znaczy, że termin średni błąd jest niezależny od regresorów z wyjątkiem jego ówczesnych te (w mamy nie obejmują serię jedynek). $E(u_i \mid \mathbf X_{-i})=0$ $i$ $E(u_i \mid \mathbf x_{i})=h(\mathbf x_i)$ $\mathbf X$

Załóżmy, że określamy regresję z uwzględnieniem stałego terminu (regresor szeregu jednych).

y = a + X β + ε

$\mathbf y = \mathbf a + \mathbf X\mathbf β + \mathbf ε$

i notacja kompaktowania

y = Z γ + ε

$\mathbf y = \mathbf Z\mathbf γ + \mathbf ε$

gdzie , , , . $\mathbf a = (a,a,a...)'$ $\mathbf Z = [\mathbf 1: \mathbf X]$ $\mathbf γ = (a, \mathbf β)'$ $\mathbf ε = \mathbf u - \mathbf a$

Wtedy będzie estymator OLS

\hat{γ} = γ + {(Z^{'} Z)}^{- 1} Z^{'} ε

$\hat {\mathbf γ} = \mathbf γ + \left(\mathbf Z'\mathbf Z\right)^{-1}\mathbf Z'\mathbf ε$

Dla bezstronności potrzebujemy . Ale $E\left[\mathbf ε\mid \mathbf Z\right] =0$

E [ε_{i} ∣ x_{i}] = E [u_{i} - a ∣ x_{i}] = h (x_{i}) - a

$E\left[ ε_i\mid \mathbf x_i\right] = E\left[u_i-a\mid \mathbf x_i\right] = h(\mathbf x_i)-a$

który nie może być zerowy dla wszystkich , ponieważ badamy przypadek, w którym nie jest funkcją stałą. Więc $i$ $h(\mathbf x_i)$

E [ε ∣ Z] \neq 0 ⟹ E (\hat{γ}) \neq γ

$E\left[\mathbf ε\mid \mathbf Z\right] \neq 0 \implies E(\hat {\mathbf γ}) \neq \mathbf γ$

Jeśli , to nawet jeśli uwzględnimy regresję w stałej wartości, estymator OLS nie będzie bezstronny , co oznacza również, że wynik Gaussa-Markowa dotyczący wydajności został utracony $E(u_i \mid \mathbf x_{i})=h(\mathbf x_i)\neq h(\mathbf x_j)=E(u_j \mid \mathbf x_{j})$ .

Ponadto, termin błędu ma inną średnią dla każdego , a więc także inną wariancję (tj. Jest warunkowo heteroskedastyczny). Więc jego dystrybucja uwarunkowane regresorów różni się w uwagach . $\mathbf ε$ $i$ $i$

Ale to oznacza, że nawet jeśli termin błąd zakłada się normalne, a następnie rozkład błędu próbkowania będzie normalne, ale nie zerową średnią mormal iz nieznanego błędu. I wariancja będzie się różnić. Więc $u_i$ $\hat {\mathbf γ} - \mathbf γ$

Jeśli , to nawet jeśli uwzględnimy regresję w stałej wartości, testowanie hipotez nie jest już ważne. $E(u_i \mid \mathbf x_{i})=h(\mathbf x_i)\neq h(\mathbf x_j)=E(u_j \mid \mathbf x_{j})$

Innymi słowy, właściwości „skończonej próbki” zniknęły.

Pozostaje nam tylko skorzystać z asymptotycznie ważnego wnioskowania, dla którego będziemy musieli poczynić dodatkowe założenia.

So simply put, Strict Exogeneity cannot be "easily ignored".

— Alecos Papadopoulos
źródło

I'm not completely sure I understand this. Isn't assuming that the mean is a not a function of the regressors equivalent to assuming homoscedasticity?

— Batman

@Batman To what part of my post are you referring to?

— Alecos Papadopoulos

When you say "The inclusion of a constant term in the regression will absorb the possibly non-zero conditional mean of the error term if we assume that this conditional mean is already a constant and not a function of the regressors. This is the crucial assumption that must be made independently of whether we include a constant term or not." Isn't assuming that the conditional mean isn't a function of the regressors exactly what we're assuming when we assume homoscedasticity?

— Batman

@Batman Homoskedasticity is an assumption about the variance. Assuming mean -independence does not imply that

E (u_{j}^{2} ∣ x)

$E(u^2_j \mid \mathbf x)$ is also a constant, which is also needed for conditional homoskedasticity. In fact, mean-independence,

E (u ∣ x) = c o n s t .

$E(u \mid x) =const.$ together with conditional heteroskedasticity,

E (u^{2} ∣ x) = g (x)

$E(u^2 \mid x) = g(x)$ is a standard model variant.

— Alecos Papadopoulos