Metody dopasowania „prostego” modelu błędu pomiaru

Szukam metod, które można wykorzystać do oszacowania modelu błędu pomiaru „OLS”.

y_{i} = Y_{i} + e_{y, i}

$y_{i}=Y_{i}+e_{y,i}$

x_{i} = X_{i} + e_{x, i}

$x_{i}=X_{i}+e_{x,i}$

Y_{i} = α + β X_{i}

$Y_{i}=\alpha + \beta X_{i}$

Gdzie błędy są niezależne normalne z nieznanymi wariancjami i . „Standardowy” OLS nie będzie w tym przypadku działał. $\sigma_{y}^{2}$ $\sigma_{x}^{2}$

Wikipedia ma kilka nieprzyjemnych rozwiązań - dwie podane siły zmuszają cię do założenia, że albo „współczynnik wariancji” lub „ współczynnik niezawodności " jest znany, gdzie jest wariantem prawdziwego regresora . Nie jestem tym usatysfakcjonowany, ponieważ jak ktoś, kto nie zna różnic, może poznać ich stosunek? $\delta=\frac{\sigma_{y}^{2}}{\sigma_{x}^{2}}$ $\lambda=\frac{\sigma_{X}^{2}}{\sigma_{x}^{2}+\sigma_{X}^{2}}$ $\sigma_{X}^2$ $X_i$

W każdym razie, czy są jakieś inne rozwiązania oprócz tych dwóch, które nie wymagają ode mnie „znajomości” parametrów?

Rozwiązania tylko dla przechwytywania i nachylenia są w porządku.

regression estimation errors-in-variables

— prawdopodobieństwo prawdopodobieństwa
źródło

artykuł w Wikipedii zawiera odpowiedź na to pytanie. Jeśli przyjmujesz normalność „prawdziwego” regresora, potrzebujesz dalszych warunków w rozkładzie błędów. Jeśli prawdziwy regresor nie jest gaussowski, masz nadzieję. Zobacz Reiersol (1950) .

— kardynał

co rozumiesz przez „Rozwiązania tylko dla przechwytywania i nachylenia są w porządku”. To tylko twoje dwa parametry! A może miałeś również nadzieję wycofać się z „prawdziwego” regresora?

— kardynał

@ cardinal - miałem na myśli, że nie dbałem szczególnie o dwa parametry skali i, jak mówisz, „prawdziwy” regressor .

X_{i}

$X_{i}$

— probabilislogiczny

Widzę. To ma sens.

— kardynał

Istnieje szereg możliwości opisanych przez JW Gillarda w historycznym przeglądzie regresji liniowej z błędami w obu zmiennych

Jeśli nie interesują Cię szczegóły ani powody, dla których wybierasz jedną metodę zamiast drugiej, po prostu wybierz najprostszą, czyli narysuj linię przez środek ciężkości z nachyleniem , tj. stosunek zaobserwowanych odchyleń standardowych (czyniąc znak nachylenia tym samym co znak kowariancji i ); jak zapewne możesz się poćwiczyć, daje to przecięcie osi $(\bar{x},\bar{y})$ $\hat{\beta}=s_y/s_x$ $x$ $y$ $y$ $\hat{\alpha}=\bar{y}-\hat{\beta}\bar{x}.$

Zalety tego konkretnego podejścia są następujące

daje tę samą linię porównując względem jak względem , $x$ $y$ $y$ $x$
jest niezmienny w skali, więc nie musisz się martwić o jednostki,
leży między dwiema zwykłymi liniowymi liniami regresji
przecina je tam, gdzie przecinają się w środku ciężkości obserwacji, i
bardzo łatwo to obliczyć.

Nachylenie jest średnią geometryczną nachyleń dwóch zwykłych nachyleń regresji liniowej. Jest też, co można uzyskać, jeśli standaryzowany przez i obserwacje, narysował linię pod kątem 45 ° (lub 135 °, jeśli istnieje korelacja ujemna), a następnie de-standaryzowany linię. Można to również uznać za równoważne z domniemanym założeniem, że wariancje dwóch zestawów błędów są proporcjonalne do wariancji dwóch zestawów obserwacji; o ile mogę powiedzieć, twierdzisz, że nie wiesz, w którą stronę jest to źle. $x$ $y$

Oto kod R do zilustrowania: czerwona linia na wykresie to regresja OLS dla na , niebieska linia to regresja OLS dla na , a zielona linia to ta prosta metoda. Pamiętaj, że nachylenie powinno wynosić około 5. $Y$ $X$ $X$ $Y$

X0 <- 1600:3600
Y0 <- 5*X0 + 700
X1 <- X0 + 400*rnorm(2001)
Y1 <- Y0 + 2000*rnorm(2001)
slopeOLSXY  <- lm(Y1 ~ X1)$coefficients[2]     #OLS slope of Y on X
slopeOLSYX  <- 1/lm(X1 ~ Y1)$coefficients[2]   #Inverse of OLS slope of X on Y
slopesimple <- sd(Y1)/sd(X1) *sign(cov(X1,Y1)) #Simple slope
c(slopeOLSXY, slopeOLSYX, slopesimple)         #Show the three slopes
plot(Y1~X1)
abline(mean(Y1) - slopeOLSXY  * mean(X1), slopeOLSXY,  col="red")
abline(mean(Y1) - slopeOLSYX  * mean(X1), slopeOLSYX,  col="blue")
abline(mean(Y1) - slopesimple * mean(X1), slopesimple, col="green")

— Henz
źródło

@Henry, twoja definicja nie ma dla mnie żadnego sensu. Brakuje niektórych „czapek”?

\hat{β}

$\hat{\beta}$

— kardynał

Oznacza to, że jest to obserwowane odchylenie standardowe podzielone przez obserwowane odchylenie standardowe . Zamienię na

{y_{i}}

$\{y_i\}$

{x_{i}}

$\{x_i\}$

σ

$\sigma$

s

$s$

— Henry

@Henry, czy możesz wyjaśnić niektóre z twoich komentarzy? Na podstawie twojego obecnego opisu coś mnie uderza. Niech będzie nachyleniem, zakładając, że jest odpowiedzią, a jest predyktorem. Niech będzie nachyleniem, zakładając, że jest odpowiedzią predyktorem. Następnie i , gdzie próbka jest korelacja pomiędzy i . Stąd średnia geometryczna tych dwóch oszacowań nachylenia to po prostu .

{\hat{β}}_{x y}

$\hat{\beta}_{xy}$

y

$y$

x

$x$

{\hat{β}}_{y x}

$\hat{\beta}_{yx}$

x

$x$

y

$y$

{\hat{β}}_{x y} = \hat{ρ} s_{y} / s_{x}

$\hat{\beta}_{xy} = \hat{\rho}s_y / s_x$

{\hat{β}}_{y x} = \hat{ρ} s_{x} / s_{y}

$\hat{\beta}_{yx} = \hat{\rho} s_x / s_y$

\hat{ρ}

$\hat{\rho}$

x

$x$

y

$y$

\hat{ρ}

$\hat{\rho}$

— kardynał

@ cardinal: Nie - kiedy widzę Mam na myśli, że nachylenie wynosi ponieważ można je przepisać jako . Kiedy próbujesz narysować dwie linie OLS na tym samym wykresie wraz z zaobserwowanymi punktami (np. na osi pionowej i na osi poziomej), musisz odwrócić jeden z nachyleń. Miałem na myśli, że bierzesz geometryczną średnią z i , czyli po prostu . Lub, jeśli jesteś niekonwencjonalny, aby narysować i odwrotnie dla obu linii i obserwowanych punktów, otrzymasz odwrotność tego jako nachylenie.

x = b y + c

$x = by+c$

1 / b

$1/b$

y = x / b - c / b

$y=x/b-c/b$

y

$y$

x

$x$

\hat{ρ} s_{y} / s_{x}

$\hat{\rho}s_y/s_x$

s_{y} / \hat{ρ} s_{x}

$s_y/\hat{\rho}s_x$

s_{y} / s_{x}

$s_y/s_x$

y

$y$

x

$x$

— Henry

@Henry - to dość interesująca odpowiedź. Niekoniecznie wątpię w jego ważność, ale jedną rzeczą, która mnie zaskakuje, jest to, że korelacja / kowariancja między i jest całkowicie nieobecna w odpowiedzi. Z pewnością powinno to mieć związek z odpowiedzią?

Y

$Y$

X

$X$

— prawdopodobieństwo prawdopodobieństwo