25

Jestem nieco zdezorientowany, jeśli zmienna niezależna (zwana również predyktorem lub cechą) w modelu statystycznym, na przykład w regresji liniowej , jest zmienną losową? $X$ $Y=\beta_0+\beta_1 X$

— l7ll7
źródło

12

Model liniowy jest uzależniony od , dlatego to, czy jest losowy, nie powinno mieć znaczenia.

X

$X$

— Xi'an

4

Sprawdź to . Dobre pytanie, BTW.

— Antoni Parellada

@ Xi'an, w ustalonym projekcie założenia modelu liniowego nie są uwarunkowane na

X

$X$ , patrz moja odpowiedź. To ma duże znaczenie. To jest powód, dla którego eksperymenty są o wiele łatwiejsze do interpretacji niż wyniki badań obserwacyjnych

— Aksakal

19

Istnieją dwie popularne formuły regresji liniowej. Aby skupić się na koncepcjach, nieco je streszczę. Opis matematyczny jest nieco bardziej zaangażowany niż opis angielski, więc zacznijmy od drugiego:

Regresja liniowa jest modelem, w którym zakłada się, że odpowiedź $Y$ jest losowa z rozkładem określonym przez regresory $X$ za pomocą mapy liniowej $\beta(X)$ i ewentualnie innych parametrów $\theta$ .

W większości przypadków zestaw możliwych rozkładów jest rodziną lokalizacji o parametrach $\alpha$ i $\theta$ a $\beta(X)$ daje parametr $\alpha$ . Archetypowym przykładem jest regresja zwykła, w której zestaw rozkładów to rodzina normalna $\mathcal{N}(\mu, \sigma)$ a $\mu=\beta(X)$ jest funkcją liniową regresorów.

Ponieważ nie opisałem tego jeszcze matematycznie, wciąż pozostaje otwarte pytanie, do jakiego rodzaju obiektów matematycznych $X$ , $Y$ , $\beta$ i $\theta$ odnoszą się - i uważam, że jest to główny problem w tym wątku. Chociaż można dokonać różnych (równoważnych) wyborów, większość będzie odpowiadała lub będzie opisywana w szczególnych przypadkach następujący opis.

Naprawiono regresory. W regresory są reprezentowane jako rzeczywiste wektorów $X\in\mathbb{R}^p$ . Reakcja jest zmienną losową $Y:\Omega\to\mathbb{R}$ (gdzie $\Omega$ jest wyposażony w dziedzinie sigma i prawdopodobieństwa). Modelu jest funkcją $f:\mathbb{R}\times\Theta\to M^d$ (albo, jeśli chce, zestaw funkcji $\mathbb{R}\to M^d$ parametryzowane $\Theta$ ). $M^d$ jest skończonym wymiarowym topologicznym (zwykle drugim rozróżnialnym) podfolderem (lub podmanifoldem z granicą) wymiaru $d$ przestrzeni rozkładów prawdopodobieństwa. $f$ zwykle uważa się za ciągły (lub dostatecznie różnicowalny). $\Theta\subset\mathbb{R}^{d-1}$ są "parametry uciążliwe." Przypuszcza się, że rozkład $Y$ wynosi $f(\beta(X), \theta)$ dla niektórych nieznanych wektorów podwójnych $\beta\in\mathbb{R}^{p*}$ („współczynniki regresji”) i nieznanych $\theta\in\Theta$ . Możemy zapisać to
$Y \sim fa (β (X), θ) .$ $Y \sim f(\beta(X), \theta).$
Losowe regresory. W regresory i reakcji są $p+1$ wymiarowy wektor o wartościach zmienną losową $Z = (X,Y): \Omega^\prime \to \mathbb{R}^p \times \mathbb{R}$ . Model $f$ jest tym samym rodzajem obiektu, co wcześniej, ale teraz daje warunkowe prawdopodobieństwo
$Y | X \sim fa (β (X), θ) .$ $Y|X \sim f(\beta(X), \theta).$

Opis matematyczny jest bezużyteczny bez recepty określającej, w jaki sposób ma być stosowany do danych. W przypadku ustalonego regresora rozumiemy $X$ jako określony przez eksperymentatora. Dlatego pomocne może być postrzeganie $\Omega$ jako iloczynu $\mathbb{R}^p\times \Omega^\prime$ wyposażonego w algebrę sigma produktu. Eksperymentator określa $X$ a natura określa (niektóre nieznane, abstrakcyjne) $\omega\in\Omega^\prime$ . W przypadku regresora losowego natura określa $\omega\in\Omega^\prime$ , $X$ składnik zmiennej losowej $\pi_X(Z(\omega))$ określa $X$ (co jest „obserwowane”), a teraz mamy uporządkowaną parę $(X(\omega), \omega)) \in \Omega$ dokładnie tak, jak w przypadku regresora ustalonego.

Archetypowym przykładem wielokrotnej regresji liniowej (którą wyrażę za pomocą standardowej notacji dla obiektów zamiast tej bardziej ogólnej) jest to, że

fa (β (X), σ) = N. (β (x), σ)

$f(\beta(X), \sigma)=\mathcal{N}(\beta(x), \sigma)$ dla pewnej stałej

σ \in Θ = R^{+}

$\sigma \in \Theta = \mathbb{R}^{+}$ . Ponieważ

x

$x$ zmienia się w obrębie

R^{p}

$\mathbb{R}^p$ , jego obraz w różny sposób wykreśla jednowymiarowy podzbiór - krzywą - w dwuwymiarowym rozmaitym rozkładzie normalnym.

Gdy - w dowolny sposób whatsoever-- $\beta$ jest szacowana jako i jako wartość jest wartość przewidywana z związane z --whether jest sterowany przez eksperymentatora (przypadek 1 ) lub obserwuje się tylko (przypadek 2). Jeśli albo ustawienie wartości (przypadek 1), lub obserwuje się realizacja (przypadek 2) w , wówczas odpowiedź związane z tym jest zmienną losową, której rozkład jest $\hat\beta$ $\sigma$ $\hat\sigma$ $\hat\beta(x)$ $Y$ $x$ $x$ $x$ $X$ $Y$ $X$ $\mathcal{N}(\beta(x), \sigma)$ , co jest znane, leczszacujesię $\mathcal{N}(\hat\beta(x), \hat\sigma)$ .

— Whuber
źródło

Pozwól mi tylko wspomnieć, że jest to fantastyczna odpowiedź (ale prawdopodobnie nie dla wszystkich).

— l7ll7

2

PS Czy znasz jakieś książki, w których te podstawowe pytania zostałyby wyjaśnione tak dokładnie, jak tutaj? Jako matematyk wszystkie znalezione przeze mnie książki odzwierciedlały inne odpowiedzi tutaj, które są znacznie mniej precyzyjne z matematycznego punktu widzenia. (To oczywiście nie czyni ich złymi, po prostu dlatego, że te książki nie są dla mnie - chciałbym, aby książka była bardziej precyzyjna, taka jak ta odpowiedź.)

— l7ll7 15.01.2017

W pierwszym zdaniu poprzednim akapicie, nie jest

przewidywana wartość dla

(a realizacją zmiennej losowej

) nie przewidywana wartość dla

? Czy też źle zrozumiałem Twój język, a „przewidywana wartość

” oznacza „przewidywaną wartość, gdy

jest ustawioną (obserwowaną) wartością

?”

\hat{β} (x)

$\hat{\beta}(x)$

y

$y$

Y

$Y$

x

$x$

x

$x$

x

$x$

X

$X$

— Czad

1

@Chad Dziękujemy za wskazanie dwuznacznego języka. Zredagowałem to zdanie, aby wyjaśnić znaczenie, które jest zgodne z twoim zrozumieniem.

— whuber

7

Po pierwsze @whuber udzielił doskonałej odpowiedzi. Spróbuję inaczej, może w pewnym sensie prościej, również w odniesieniu do tekstu.

MOTYWACJA

może być losowy lub ustalony w formule regresji. To zależy od twojego problemu. W przypadku tak zwanych badań obserwacyjnych musi być losowy, a w przypadku eksperymentów zwykle jest ustalony. $X$

Przykład pierwszy Badam wpływ ekspozycji na promieniowanie elektronowe na twardość części metalowej. Biorę więc kilka próbek części metalowej i wystawiam na działanie różnych poziomów promieniowania. Mój poziom ekspozycji to X i jest ustalony , ponieważ ustawiłem poziomy, które wybrałem. W pełni kontroluję warunki eksperymentu, a przynajmniej próbuję. Mogę zrobić to samo z innymi parametrami, takimi jak temperatura i wilgotność.

Przykład drugi Badasz wpływ ekonomii na częstotliwość występowania oszustw w aplikacjach kart kredytowych. Więc regresujesz, że zdarzenie oszustwa liczy się z PKB. Nie kontrolujesz PKB, nie możesz ustawić żądanego poziomu. Co więcej, prawdopodobnie chcesz przyjrzeć się regresjom wielowymiarowym, więc masz inne zmienne, takie jak bezrobocie, a teraz masz kombinację wartości w X, które obserwujesz , ale których nie kontrolujesz. W tym przypadku X jest losowy .

Przykład trzeci Badasz skuteczność nowego pestycydu na polu, tj. Nie w warunkach laboratoryjnych, ale w rzeczywistej farmie eksperymentalnej. W takim przypadku możesz coś kontrolować, np. Możesz kontrolować ilość pestycydów do umieszczenia. Nie kontrolujesz jednak wszystkiego, np. Warunków pogodowych lub glebowych. Ok, możesz kontrolować glebę do pewnego stopnia, ale nie do końca. Jest to przypadek pośredni, w którym niektóre warunki są przestrzegane, a niektóre warunki są kontrolowane . Jest cały ten obszar badań zwany projektowaniem eksperymentalnym, który naprawdę koncentruje się na tym trzecim przypadku, w którym badania w rolnictwie są jednym z największych jego zastosowań.

MATEMATYKA

Oto matematyczna część odpowiedzi. Istnieje zestaw założeń, które zwykle przedstawia się podczas badania regresji liniowej, zwanych warunkami Gaussa-Markowa. Są bardzo teoretyczni i nikt nie zadaje sobie trudu, aby udowodnić, że trzymają się praktycznie każdej konfiguracji. Są one jednak bardzo przydatne w zrozumieniu ograniczeń zwykłej metody najmniejszych kwadratów (OLS).

Tak więc zestaw założeń jest inny dla losowego i ustalonego X, które z grubsza odpowiadają badaniom obserwacyjnym vs. eksperymentalnym. Z grubsza, ponieważ, jak pokazałem w trzecim przykładzie, czasami jesteśmy naprawdę pomiędzy skrajnościami. Przekonałem się, że sekcja twierdzenia „Gaussa-Markowa” w Encyklopedii badań naukowych Salkinda jest dobrym miejscem do rozpoczęcia, jest dostępna w Google Books.

Odmienne założenia ustalonego projektu są następujące dla zwykłego modelu regresji : $Y=X\beta+\varepsilon$

$E[\varepsilon]=0$
Homoscedastyczność, $E[\varepsilon^2]=\sigma^2$
Brak korelacji szeregowej, $E[\varepsilon_i,\varepsilon_j]=0$

a te same założenia w projekcie losowym:

$E[\varepsilon|X]=0$
Homoscedastyczność, $E[\varepsilon^2|X]=\sigma^2$
Brak korelacji szeregowej, $E[\varepsilon_i,\varepsilon_j|X]=0$

Jak widać, różnicą jest warunkowanie założeń macierzy projektowej dla projektu losowego. Uwarunkowanie czyni te założenia silniejszymi. Na przykład nie mówimy po prostu, jak w przypadku ustalonego projektu, że błędy mają zerową średnią; w losowym projekcie mówimy również, że nie są zależne od współzmiennych X.

— Aksakal
źródło

2

W statystyce zmienna losowa to ilość, która zmienia się losowo w pewien sposób. Dobra dyskusja znajduje się w tym doskonałym wątku CV: Co oznacza „zmienna losowa”?

W modelu regresji zakłada się, że zmienne predykcyjne (zmienne X, zmienne objaśniające, zmienne towarzyszące itp.) Są ustalone i znane . Nie zakłada się, że są przypadkowe. Zakłada się, że cała losowość w modelu jest wyrażona jako błąd. Rozważ prosty model regresji liniowej, jak sformułowano standardowo:
Pojęcie błędu jest zmienną losową i jest źródłem losowości w modelu. W wyniku tego błędu jest również zmienną losową. Alenie przyjmuje się, że jest zmienną losową. (Oczywiście może to być zmienna losowaw rzeczywistości, ale nie jest to założone ani odzwierciedlone w modelu).

Y = β_{0} + β_{1} X + ε gdzie ε \sim N. (0, σ^{2)})

$Y = \beta_0 + \beta_1 X + \varepsilon \\ \text{where } \varepsilon\sim\mathcal N(0, \sigma^2)$

ε

$\varepsilon$

Y

$Y$

X

$X$

— gung - Przywróć Monikę
źródło

Masz na myśli, że

jest stałą? Ponieważ jest to jedyny inny sposób na zrozumienie

z matematycznego punktu widzenia, ponieważ

jest zmienną losową, a dodanie jest zdefiniowane tylko między dwiema zmiennymi losowymi, a nie „czymś innym” + zmienną losową. Chociaż jedna z dwóch zmiennych losowych może być stała, o czym mówię.

X

$X$

X

$X$

ε

$\varepsilon$

— l7ll7,

PS Spojrzałem na wszystkie wyjaśnienia ze wspomnianego łącza i żadne bardzo pouczające: dlaczego? Ponieważ żaden nie ma związku między zmiennymi losowymi, ponieważ probabiliści to rozumieją, a tym, jak statystycy to rozumieją. Zatem niektóre odpowiedzi przekształcają standardową, precyzyjną definicję teorii prawdopodobieństwa, podczas gdy inne przekształcają (choć dla mnie niejasną) niejasną definicję statystyczną. Ale nikt tak naprawdę nie wyjaśnia związku między tymi dwiema koncepcjami. (Jedynym wyjątkiem jest długa odpowiedź w modelu „bilet w pudełku”, która może być obiecująca, ale mimo to [...]

— l7ll7,

różnica nie była wystarczająco wyraźna, by uderzająco oświetlić; Będę musiał zastanowić się nad tą konkretną odpowiedzią, aby sprawdzić, czy ma to jakąś wartość)

— l7ll7,

@ user10324, jeśli chcesz, możesz myśleć o

jako o zestawie stałych. Można również pomyśleć o tym jako o zmiennej nieprzypadkowej.

X

$X$

— gung - Przywróć Monikę

Nie, sposób myślenia o zmiennych nieprzypadkowych nie działa z dwóch powodów: po pierwsze, jak argumentowałem w powyższych komentarzach, nie ma czegoś takiego jak „zmienna” w matematyce, a dwa, nawet gdyby były , wówczas dodawanie w tym przypadku nie jest zdefiniowane, jak argumentowałem w powyższych komentarzach.

— l7ll7,

1

Nie jestem pewien, czy rozumiem pytanie, ale jeśli tylko pytasz: „zmienna niezależna zawsze musi być zmienną losową”, to odpowiedź brzmi „nie”.

Zmienna niezależna jest zmienną, która, jak się zakłada, jest skorelowana ze zmienną zależną. Następnie testujesz, czy tak jest w przypadku modelowania (przypuszczalnie analiza regresji).

Jest tu wiele komplikacji i „jeśli, ale i majteczki”, więc sugerowałbym, aby uzyskać kopię podstawowej książki ekonometrii lub statystyki obejmującej analizę regresji i dokładne jej przeczytanie, lub też uzyskać notatki klasowe z podstawowych statystyk / ekonometrii kurs online, jeśli to możliwe.

— Statsanalyst
źródło

X

$X$

X

$X$

Y

$Y$

X

$X$

Y

$Y$

X

$X$

x \mapsto x

$x\mapsto x$

x

$x$

x

$x$

X

$X$

Brzmi tak, jakbyś miał o wiele lepsze zrozumienie matematyki niż ja. Podaję tylko standardową odpowiedź ekonometryczną / statystyczną na studiach licencjackich. Zastanawiam się, czy być może nie zastanawiasz się nad tym, przynajmniej z punktu widzenia praktycznej analizy. Jeśli chodzi o cytat z tej książki, moja interpretacja tego jest taka, że konkretne xiy, do których się odnosi, są losowe - ale to nie znaczy, że dowolne x lub dowolne y są losowe.

— Statsanalyst

np. zmienna zależna w modelu trendów wyborczych w polityce brytyjskiej może być liczbą głosów otrzymanych przez konserwatywnego kandydata w każdym okręgu wyborczym (jazda do Kanadyjczyków, dystrykt dla Amerykanów), a zmienną niezależną mogą być średnie ceny domów (zastępstwo dla bogactwo / dochód w Wielkiej Brytanii). Żadna z nich nie jest zmienną „losową”, tak jak ją rozumiem, ale modelowanie byłoby całkowicie rozsądne.

— Statsanalyst,

Ok, dobrze wiedzieć, jakiego rodzaju odpowiedzi mogę się spodziewać / jest standardem w działach ekonometrii / statystyki i bardzo doceniam tę informację zwrotną (chciałbym jeszcze raz głosować, ale nie mogę, ponieważ już to zrobiłem). Problem z matematyką polega na tym, że „gdy staniesz się czarny, nigdy nie wrócisz”: całoroczne szkolenie z matematycznej precyzji wywoła uczucie niepokoju, jeśli coś nie będzie krystalicznie jasne, dopóki nie osiągnie się jasności [...]

— l7ll7

Zmienna niezależna = zmienna losowa?

MOTYWACJA

MATEMATYKA