Twoje pytanie (wraz z dodatkowym komentarzem w komentarzach) wydaje się być najbardziej interesujące w przypadku, gdy mamy randomizowaną kontrolowaną próbę, w której badacz losowo przypisuje jedną lub więcej zmiennych objaśniających, w oparciu o pewien projekt randomizacji. W tym kontekście chcesz wiedzieć, dlaczego używamy modelu, który traktuje zmienne objaśniające jako znane stałe, zamiast traktować je jako zmienne losowe z rozkładu próbkowania narzuconego przez randomizację. (Twoje pytanie jest szersze niż to, ale wydaje się, że dotyczy to przede wszystkim komentarza, więc odpowiem na to pytanie).
XYX† Jednak przedmiotem wnioskowania w tym problemie jest nadal warunkowy rozkład zmiennej odpowiedzi, biorąc pod uwagę zmienne objaśniające. Dlatego nadal uzasadnione jest oszacowanie parametrów w tym rozkładzie warunkowym, przy użyciu metod szacowania, które mają dobre właściwości do wnioskowania o rozkład warunkowy .
Jest to normalny przypadek, który dotyczy RCT z wykorzystaniem technik regresji. Oczywiście istnieją sytuacje, w których mamy inne interesy i rzeczywiście możemy chcieć uwzględnić niepewność co do zmiennych wyjaśniających. Włączenie niepewności do zmiennych objaśniających występuje zwykle w dwóch przypadkach:
(1) Kiedy wychodzimy poza analizę regresji i przechodzimy do analizy wielowymiarowej, wówczas interesuje nas wspólny rozkład zmiennych objaśniających i odpowiedzi, a nie tylko rozkład warunkowy tych drugich, biorąc pod uwagę te pierwsze. Mogą istnieć aplikacje, w których leży to w naszym interesie, dlatego wychodzimy poza analizę regresji i włączamy informacje o rozkładzie zmiennych objaśniających.
(2) W niektórych zastosowaniach regresyjnych interesujemy się rozkładem warunkowym zmiennej odpowiedzi zależnym od podstawowej nieobserwowanej zmiennej objaśniającej, w której zakładamy, że obserwowane zmienne objaśniające były obarczone błędem („błędy w zmiennych”). W tym przypadku uwzględniamy niepewność poprzez „błędy w zmiennych”. Powodem tego jest to, że nasze zainteresowanie tymi przypadkami leży w rozkładzie warunkowym , uwarunkowanym nieobserwowaną zmienną bazową .
Zauważ, że oba te przypadki są matematycznie bardziej skomplikowane niż analiza regresji, więc jeśli uda nam się uniknąć analizy regresji, jest to ogólnie rzecz biorąc preferowane. W każdym razie, w większości zastosowań analizy regresji, celem jest wnioskowanie o warunkowym rozkładzie odpowiedzi, biorąc pod uwagę obserwowalne zmienne objaśniające, aby uogólnienia te stały się niepotrzebne.
†