Dlaczego błąd pomiaru w zmiennej zależnej nie wpływa na wyniki?

10

Kiedy w zmiennej niezależnej występuje błąd pomiaru, zrozumiałem, że wyniki będą tendencyjne do 0. Kiedy zmienna zależna jest mierzona z błędem, mówią, że wpływa to tylko na standardowe błędy, ale nie ma to dla mnie większego sensu, ponieważ jesteśmy oszacowanie wpływu nie na pierwotną zmienną ale na niektóre inne plus błąd. Jak to nie wpływa na szacunki? W takim przypadku czy mogę również użyć zmiennych instrumentalnych, aby usunąć ten problem? $X$ $Y$ $Y$

regression econometrics instrumental-variables

— Kocur
źródło

17

Gdy chcesz oszacować prosty model, taki jak a zamiast prawdziwego obserwujesz go tylko z pewnym błędem który jest taki, że jest nieskorelowane z i , jeśli szacowana to

Y_{i} = α + β X_{i} + ϵ_{i}

$Y_i = \alpha + \beta X_i + \epsilon_i$

Y_{i}

$Y_i$

{\tilde{Y}}_{i} = Y_{i} + ν_{i}

$\widetilde{Y}_i = Y_i + \nu_i$

X

$X$

ϵ

$\epsilon$

{\tilde{Y}}_{i} = α + β X_{i} + ϵ_{i}

$\widetilde{Y}_i = \alpha + \beta X_i + \epsilon_i$

β

$\beta$

\begin{aligned} \hat{β} & = \frac{C o v ({\tilde{Y}}_{i}, X_{i})}{V a r (X_{i})} \\ = \frac{C o v (Y_{i} + ν_{i}, X_{i})}{V a r (X_{i})} \\ = \frac{C o v (α + β X_{i} + ϵ_{i} + ν_{i}, X_{i})}{V a r (X_{i})} \\ = \frac{C o v (α, X_{i})}{V a r (X_{i})} + β \frac{C o v (X_{i}, X_{i})}{V a r (X_{i})} + \frac{C o v (ϵ_{i}, X_{i})}{V a r (X_{i})} + \frac{C o v (ν_{i}, X_{i})}{V a r (X_{i})} \\ = β \frac{V a r (X_{i})}{V a r (X_{i})} \\ = β \end{aligned}

$\begin{align} \widehat{\beta} &= \frac{Cov(\widetilde{Y}_i,X_i)}{Var(X_i)} \newline &= \frac{Cov(Y_i + \nu_i,X_i)}{Var(X_i)} \newline &= \frac{Cov(\alpha + \beta X_i + \epsilon_i + \nu_i,X_i)}{Var(X_i)} \newline &= \frac{Cov(\alpha ,X_i)}{Var(X_i)} + \beta\frac{Cov(X_i,X_i)}{Var(X_i)} + \frac{Cov(\epsilon_i,X_i)}{Var(X_i)} + \frac{Cov(\nu_i,X_i)}{Var(X_i)} \newline &= \beta \frac{Var(X_i)}{Var(X_i)} \newline &= \beta \end{align}$ ponieważ kowariancja między zmienna losowa i stała ( ) wynosi zero, podobnie jak kowariancje między a ponieważ przyjęliśmy, że są one nieskorelowane.

α

$\alpha$

X_{i}

$X_i$

ϵ_{i}, ν_{i}

$\epsilon_i, \nu_i$

Widzisz więc, że Twój współczynnik jest konsekwentnie szacowany. Jedynym zmartwieniem jest to, że podaje dodatkowy termin błędu, który zmniejsza moc twoich testów statystycznych. W bardzo złych przypadkach takiego błędu pomiaru w zmiennej zależnej możesz nie znaleźć znaczącego efektu, nawet jeśli może on występować w rzeczywistości. Zasadniczo zmienne instrumentalne nie pomogą ci w tym przypadku, ponieważ wydają się być jeszcze bardziej nieprecyzyjne niż OLS i mogą jedynie pomóc z błędem pomiaru w zmiennej objaśniającej. $\widetilde{Y}_i = Y_i + \nu_i = \alpha + \beta X_i + \epsilon_i + \nu_i$

— Andy
źródło

Mam proste pytanie: co jeśli νi, który jest błędem pomiaru w zmiennej zależnej, jest skorelowany z niezależną zmienną będącą przedmiotem zainteresowania? Wyobrażam sobie, że istnieje wiele możliwości, że może się to zdarzyć, a stronniczość społeczna pożądania może być przykładem. Jeśli respondenci biorący udział w badaniu wykazywali uprzedzenia w zakresie społecznej pożądalności, odpowiadając na kwestionariusz (y) zmiennej zależnej, i jeśli ta pożądalność była związana ze zmienną niezależną, powiedzmy wiek lub płeć (co może być prawdopodobnie związane z pożądaniem społecznym), co dzieje się w warunki endogeniczności?

— Kang Inkyu

3

Analiza regresji odpowiada na pytanie: „Jaka jest ŚREDNIA wartość Y dla tych, którzy dali wartości X?” lub równoważnie: „O ile przewiduje się zmianę Y POŚREDNIEJ, jeśli zmienimy X o jedną jednostkę?” Losowy błąd pomiaru nie zmienia średnich wartości zmiennej ani średnich wartości dla podzbiorów osób, więc losowy błąd w zmiennej zależnej nie spowoduje oszacowania regresji błędu.

Załóżmy, że masz dane dotyczące wzrostu na próbce osób. Wysokości te są bardzo dokładnie mierzone, dokładnie odzwierciedlając prawdziwą postawę każdego człowieka. W próbie średnia dla mężczyzn wynosi 175 cm, a dla kobiet 162 cm. Jeśli użyjesz regresji do obliczenia, na ile płeć przewiduje wzrost, oszacuj model

$\mathit{HEIGHT = CONSTANT + β * GENDER + RESIDUAL}$

Jeśli kobiety są kodowane jako 0, a mężczyźni jako 1, jest średnią kobietą lub 162 cm. Współczynnik regresji pokazuje, o ile zmienia się wysokość NA ŚREDNIM, gdy zmienisz o jedną jednostkę (od 0 do 1). wynosi 13, ponieważ ludzie, których wartość dla wynosi 0 (kobiety), mają średnią wysokość 162 cm, a ludzie, których wartość dla wynosi 1 (mężczyźni), mają średnią wysokość 175 cm; szacuje średnią różnicę między wzrostem mężczyzn i kobiet, która wynosi 13 cm. ( odzwierciedla różnicę wysokości między płciami.) $\mathit{CONSTANT}$ $\mathit{β}$ $\mathit{GENDER}$ $\mathit{β}$ $\mathit{GENDER}$ $\mathit{GENDER}$ $\mathit{β}$ $\mathit{RESIDUAL}$

Teraz, jeśli losowo dodasz -1 cm lub +1 cm do prawdziwej wysokości każdego, co się stanie? Osoby, których rzeczywista wysokość, powiedzmy, 170 cm, będą teraz zgłaszane jako 169 lub 171 cm. Jednak średnia próbki lub dowolnej podpróbki nie zmieni się. Ci, których rzeczywista wysokość wynosi 170 cm, będą średnio 170 cm w nowym, błędnym zbiorze danych, kobiety będą miały 162 cm itd. Jeśli ponownie uruchomisz model regresji określony powyżej przy użyciu tego nowego zestawu danych, (oczekiwana) wartość nie zmieni się, ponieważ średnia różnica między kobietami i mężczyznami wciąż wynosi 13 cm, niezależnie od błędu pomiaru. (Standardowy błąd będzie większy niż wcześniej, ponieważ wariancja zmiennej zależnej jest teraz większa.) $\mathit{β}$ $\mathit{β}$

Jeśli występuje błąd pomiaru w zmiennej niezależnej zamiast zmiennej zależnej, będzie tendencyjnym oszacowaniem. Łatwo to zrozumieć, biorąc pod uwagę przykład wysokości. Jeśli w zmiennej wystąpi przypadkowy błąd pomiaru , niektórzy mężczyźni zostaną błędnie zakodowani jako kobiety i na odwrót. Efektem tego jest zmniejszenie pozornych różnic wysokości między płciami, ponieważ przeniesienie mężczyzn do grupy kobiet sprawi, że średnia kobiet będzie większa, a przeniesienie kobiet do grupy mężczyzn zmniejszy średnią mężczyzn. Przy błędzie pomiaru w zmiennej niezależnej będzie niższy niż bezstronna wartość 13 cm. $\mathit{β}$ $\mathit{GENDER}$ $\mathit{β}$

Chociaż dla uproszczenia użyłem kategorycznej zmiennej niezależnej ( ), ta sama logika dotyczy zmiennych ciągłych. Na przykład, jeśli użyjesz zmiennej ciągłej, takiej jak wysokość urodzenia, do przewidywania wzrostu osoby dorosłej, oczekiwana wartość będzie taka sama bez względu na liczbę błędów losowych w pomiarach wysokości dorosłych. $\mathit{GENDER}$ $\mathit{β}$

— użytkownik175057
źródło