Dlaczego modele „błąd w X” nie są szerzej stosowane?

Kiedy obliczyć błąd standardowy współczynnik regresji, nie stanowią przypadkowości w macierzy eksperymentu . Na przykład w OLS obliczamy jako $X$ $\text{var}(\hat{\beta})$ $\text{var}((X^TX)^{-1}X^TY) = \sigma^2(X^TX)^{-1}$

Jeśli uznano za przypadkowy, prawo całkowitej wariancji będzie, w pewnym sensie, zażądać dodatkowego wkładu wariancji , jak również. to znaczy $X$ $X$

var (\hat{β}) = var (E (\hat{β} | X)) + E (var (\hat{β} | X)) .

$\text{var}(\hat{\beta}) = \text{var}(E(\hat{\beta}|X)) + E(\text{var}(\hat{\beta}|X)).$

Co, jeśli estymator OLS jest naprawdę bezstronny, pierwszy termin znika, ponieważ oczekiwanie jest stałe. Drugi termin to tak naprawdę: . $\sigma^2 \text{cov}(X)^{-1}$

Jeśli znany jest parametryczny model dla to dlaczego nie zastąpimy rzeczywistym oszacowaniem kowariancji. Na przykład, jeśli jest losowym przypisaniem do leczenia, czy dwumianowa wariancja powinna być bardziej wydajnym oszacowaniem? $X$ $X^TX$ $X$ $E(X)(1-E(X))$
Dlaczego nie rozważymy zastosowania elastycznych modeli nieparametrycznych do oszacowania możliwych źródeł odchyleń w oszacowaniu OLS i odpowiedniego uwzględnienia wrażliwości na projekt (tj. Rozkład ) w pierwszym warunku całkowitej wariancji ? $X$ $\text{var}(E(\hat{\beta}|X))$

— AdamO
źródło

Dlaczego prawo matematyczne „czegoś” wymaga? Używamy modelu do uzasadnienia danych w celu osiągnięcia konkretnych celów. Gdy mają one zrozumieć lub przewidzieć odpowiedź warunkową opartą na zaobserwowanej lub zmierzonej wartości zmiana w nie miałaby wcale (jeśli w ogóle) związku z pytaniem merytorycznym - w rzeczywistości uwzględnienie tej zmiany w naszych procedurach wydawałoby się być całkowicie błędnym, wprowadzającym w błąd, a nawet nonsensownym. Wydaje się zatem, że udzielenie odpowiedzi na pytanie sprowadza się do oceny częstotliwości napotykania różnego rodzaju problemów statystycznych.

X,

$X,$

X

$X$

— whuber

@whuber Skupiam się na wnioskowaniu. Prawo całkowitej wariancji wydaje się być bardziej zgodne z częstą interpretacją wyników badań. Często mówimy o „gdyby badanie zostało powtórzone” ... bez uwzględnienia faktu, że rozkład mógłby się różnić, gdyby badanie zostało powtórzone. Równowaga płci może wynosić 40% w jednej próbce, ale 60% w innej po prostu jako losowa konsekwencja sposobu, w jaki uzyskano badanie. Jak na ironię, bootstrap odzwierciedla to, ale nie generuje żadnej zmienności wyniku dla konkretnej kombinacji zmiennych towarzyszących.

X

$X$

— AdamO

Po pierwsze, wiele badań poddaje kontroli eksperymentalnej, więc nie jest nawet losowa. Po drugie, badania obserwacyjne (gdzie jest losowy) często są zainteresowane jedynie wnioskowaniem o rozkładzie warunkowym Zatem skupienie się na wnioskowaniu nie rozróżnia jednej sytuacji od drugiej. Gdy interesuje się pełna (wspólna) dystrybucja, zobaczysz wiele osób uciekających się do form analizy korelacji lub różnych procedur wielowymiarowych. Nie ma czegoś takiego jak „bootstrap”, ponieważ w tej sytuacji sposób ponownego próbkowania zależy od celów i modelu.

X

$X$

X

$X$

Y .

$Y.$

— whuber

@ whuber Kontrola eksperymentalna jest losowo przypisywana w punkcie wejścia do badania. Jak wspomniałem, jest to przekonujący przypadek: powiedzmy, że randomizacja to Bernoulli. Dlaczego warto korzystać z empirycznego oszacowania ? Użyj maksymalnego prawdopodobieństwa: ? Masz rację co do bootstrapu, miałem na myśli nieparametryczny (bezwarunkowy) bootstrap, w którym „wiersze” danych są próbkowane z zamianą.

cov (X) = X^{T} X

$\text{cov}(X) = X^TX$

cov (X) = E (X) (1 - E (X))

$\text{cov}(X) = E(X)(1-E(X))$

— AdamO

X_{1}

$X_1$

X_{1}

$X_1$

β_{1}

$\beta_1$

Odpowiedzi:

Twoje pytanie (wraz z dodatkowym komentarzem w komentarzach) wydaje się być najbardziej interesujące w przypadku, gdy mamy randomizowaną kontrolowaną próbę, w której badacz losowo przypisuje jedną lub więcej zmiennych objaśniających, w oparciu o pewien projekt randomizacji. W tym kontekście chcesz wiedzieć, dlaczego używamy modelu, który traktuje zmienne objaśniające jako znane stałe, zamiast traktować je jako zmienne losowe z rozkładu próbkowania narzuconego przez randomizację. (Twoje pytanie jest szersze niż to, ale wydaje się, że dotyczy to przede wszystkim komentarza, więc odpowiem na to pytanie).

$X$ $Y$ $X$ $^\dagger$ Jednak przedmiotem wnioskowania w tym problemie jest nadal warunkowy rozkład zmiennej odpowiedzi, biorąc pod uwagę zmienne objaśniające. Dlatego nadal uzasadnione jest oszacowanie parametrów w tym rozkładzie warunkowym, przy użyciu metod szacowania, które mają dobre właściwości do wnioskowania o rozkład warunkowy .

Jest to normalny przypadek, który dotyczy RCT z wykorzystaniem technik regresji. Oczywiście istnieją sytuacje, w których mamy inne interesy i rzeczywiście możemy chcieć uwzględnić niepewność co do zmiennych wyjaśniających. Włączenie niepewności do zmiennych objaśniających występuje zwykle w dwóch przypadkach:

(1) Kiedy wychodzimy poza analizę regresji i przechodzimy do analizy wielowymiarowej, wówczas interesuje nas wspólny rozkład zmiennych objaśniających i odpowiedzi, a nie tylko rozkład warunkowy tych drugich, biorąc pod uwagę te pierwsze. Mogą istnieć aplikacje, w których leży to w naszym interesie, dlatego wychodzimy poza analizę regresji i włączamy informacje o rozkładzie zmiennych objaśniających.
(2) W niektórych zastosowaniach regresyjnych interesujemy się rozkładem warunkowym zmiennej odpowiedzi zależnym od podstawowej nieobserwowanej zmiennej objaśniającej, w której zakładamy, że obserwowane zmienne objaśniające były obarczone błędem („błędy w zmiennych”). W tym przypadku uwzględniamy niepewność poprzez „błędy w zmiennych”. Powodem tego jest to, że nasze zainteresowanie tymi przypadkami leży w rozkładzie warunkowym , uwarunkowanym nieobserwowaną zmienną bazową .

Zauważ, że oba te przypadki są matematycznie bardziej skomplikowane niż analiza regresji, więc jeśli uda nam się uniknąć analizy regresji, jest to ogólnie rzecz biorąc preferowane. W każdym razie, w większości zastosowań analizy regresji, celem jest wnioskowanie o warunkowym rozkładzie odpowiedzi, biorąc pod uwagę obserwowalne zmienne objaśniające, aby uogólnienia te stały się niepotrzebne.

$^\dagger$

— Ben - Przywróć Monikę
źródło

Niezła odpowiedź. Dodałbym, że AFAIK, jeśli masz błędy gaussowskie w zmiennych i gaussowskie błędy w odpowiedzi, niż działa normalna metoda regresji i staje się to problemem tylko wtedy, gdy a) zaobserwowałeś odpowiedź bez błędu b) miałeś inny rozkład odpowiedzi

— Martin Modrák

$X$

Odpowiedziałem już na podobne pytanie: Jaka jest różnica między uzależnieniem od regresorów a traktowaniem ich jako ustalonych? , więc tutaj skopiuję część mojej odpowiedzi:

$(Y,X)$ $Y$ $X$ $Y$ $X$

f (y, x) = f (y ∣ x) f (x)

$f(y,x) = f(y\mid x) f(x)$

f (y, x; θ, ψ) = f_{θ} (y ∣ x) f_{ψ} (x)

$f(y,x; \theta, \psi)=f_\theta(y \mid x) f_\psi(x)$

θ

$\theta$

ψ

$\psi$

X

$X$

θ = (β, σ^{2})

$\theta=(\beta, \sigma^2)$

(θ, ψ)

$(\theta,\psi)$

Θ \times Ψ

$\Theta \times \Psi$

$X$ $f_\psi(x)$ $Y$ $f_\theta(y \mid X=x)$ $\theta$ $X$ $\theta$

$\theta$ $f_\psi(x)$ $x$ $\theta$ $\theta$ $X=x$

W zaprojektowanych eksperymentach jego założenie przeważnie się utrzyma, często bez danych obserwacyjnych. Niektóre przykłady problemów to: regresja z opóźnionymi odpowiedziami jako predyktorami. Uzależnienie od predyktorów w tym przypadku będzie również zależeć od odpowiedzi! (Dodam więcej przykładów).

$\S 4.3$

$\theta$ $X$ $\theta$ $X$ $\theta$

Ten argument separacji jest pomocny również dlatego, że wskazuje na przypadki, w których nie można go użyć, na przykład regresję z opóźnionymi odpowiedziami jako predyktorami.

— kjetil b halvorsen
źródło

X

$X$

Y

$Y$

θ

$\theta$

ψ

$\psi$

Nie wiem o PLS, ale postaram się o tym

— pomyśleć

Dobra odpowiedź! ...

— Richard Hardy,