Czy istnieje różnica między „kontrolowaniem” i „ignorowaniem” innych zmiennych w regresji wielokrotnej?

Współczynnik zmiennej objaśniającej w regresji wielokrotnej mówi nam o związku tej zmiennej objaśniającej ze zmienną zależną. Wszystko to podczas „kontrolowania” pozostałych zmiennych objaśniających.

Jak do tej pory go przeglądałem:

Podczas obliczania każdego współczynnika inne zmienne nie są brane pod uwagę, więc uważam je za ignorowane.

Czy mam zatem rację, gdy uważam, że terminów „kontrolowany” i „ignorowany” można używać zamiennie?

regression multiple-regression

— Siddharth Gopi
źródło

Nie byłem tak zachwycony tym pytaniem, dopóki nie zobaczyłem dwóch osób, które zainspirowały @gung do zaoferowania.

— DW

Nie byłeś świadomy rozmowy, którą prowadziliśmy w innym miejscu, która uzasadniła to pytanie, @DWin. Zbyt wiele było próby wyjaśnienia tego w komentarzu, więc poprosiłem PO o formalne pytanie. Wydaje mi się, że wyraźne podkreślenie rozróżnienia b / t ignorowania i kontrolowania innych zmiennych w regresji jest świetnym pytaniem i cieszę się, że zostało tu omówione.

— gung - Przywróć Monikę

zobacz także pierwszy schemat tutaj

— Glen_b,

Czy dane wykorzystane w tym pytaniu są dostępne, abyśmy mogli sami je przeprowadzić jako próbę edukacyjną.

— Larry,

Kontrolowanie czegoś i ignorowanie czegoś to nie to samo. Rozważmy wszechświat, w którym istnieją tylko 3 zmienne: , i . Chcemy zbudować model regresji, który przewiduje , i jesteśmy szczególnie zainteresowani jego relacją z . Istnieją dwie podstawowe możliwości. $Y$ $X_1$ $X_2$ $Y$ $X_1$

Mogliśmy ocenić związek pomiędzy i , podczas sterowania na : lub $X_1$ $Y$ $X_2$
$Y = β_{0} + β_{1} X_{1} + β_{2} X_{2}$ $Y = \beta_0 + \beta_1X_1 + \beta_2X_2$
moglibyśmy ocenić związek między i , ignorując : $X_1$ $Y$ $X_2$

$Y = β_{0} + β_{1} X_{1}$ $Y = \beta_0 + \beta_1X_1$

To prawda, są to bardzo proste modele, ale stanowią one różne sposoby patrzenia na to, jak relacje między i przejawia. Często szacowane s mogą być podobne w obu modelach, ale mogą być zupełnie inne. Najważniejsze w określeniu ich różnic jest relacja (lub jej brak) między i . Rozważ tę liczbę: $X_1$ $Y$ $\hat\beta_1$ $X_1$ $X_2$

wprowadź opis zdjęcia tutaj

W tym scenariuszu jest skorelowane z . Ponieważ wykres jest dwuwymiarowy, w pewnym sensie ignoruje (być może ironicznie), więc wskazałem wartości dla każdego punktu za pomocą różnych symboli i kolorów (poniższy wykres pseudo-3D zapewnia inny sposób próby wyświetlenia struktury danych). Jeśli dopasujemy model regresji, który ignoruje , otrzymamy ciągłą czarną linię regresji. Gdybyśmy dopasowali model, który kontrolował dla , otrzymalibyśmy płaszczyznę regresji, która znów jest trudna do wykreślenia, więc narysowałem trzy przekroje w tej płaszczyźnie, gdzie , , a $X_1$ $X_2$ $X_2$ $X_2$ $X_2$ $X_2$ $X_2=1$ $X_2=2$ $X_2=3$ . Tak więc, mamy linie, które pokazują związek między i , które posiadają kiedy kontrolować za . Warto zauważyć, że kontrolowanie nie daje ani jednej linii, ale zestawu linii. $X_1$ $Y$ $X_2$ $X_2$

wprowadź opis zdjęcia tutaj

Innym sposobem myślenia o rozróżnieniu między ignorowaniem i kontrolowaniem innej zmiennej jest rozważenie różnicy między rozkładem krańcowym a rozkładem warunkowym . Rozważ tę liczbę:

wprowadź opis zdjęcia tutaj

_{( To pochodzi z mojej odpowiedzi tutaj: jaka jest intuicja kryjąca się za warunkowymi rozkładami Gaussa? )}

Jeśli spojrzeć na krzywą normalną poprowadzoną na lewo od głównego rysunku, który jest marginalny dystrybucja . Jest to dystrybucja jeśli ignorować jego relacje z . Na głównej figurze są dwie normalne krzywe reprezentujące rozkłady warunkowe gdy i . Rozkłady warunkowe kontrolują poziom , podczas gdy rozkład krańcowy go ignoruje . $Y$ $Y$ $X$ $Y$ $X_1 = 25$ $X_1 = 45$ $X_1$

— gung - Przywróć Monikę
źródło

Gung, to jest pouczające, cieszę się, że popełniłem błąd, używając słowa „ignoruj” w mojej odpowiedzi na to pytanie. Teraz spróbuję dowiedzieć się, jak dokładnie pakiety statystyczne „kontrolują” pozostałe zmienne. (Moja pierwsza myśl jest taka, że używają pewnej miary, takiej jak współczynnik korelacji Pearsona. Przy wielu zmiennych objaśniających, sprawy by się popsuły) Dziękuję za tę odpowiedź!

— Siddharth Gopi,

Nie ma za co, @garciaj, chociaż jeszcze nie skończyłem ;-). Szukam innej postaci; Może będę musiał zrobić to od zera.

— gung - Przywróć Monikę

Kluczową ideą na pierwszym rysunku jest to, że punkty te leżą w trójwymiarowej przestrzeni, w / czerwone kółka na płaskiej płaszczyźnie na ekranie komputera, niebieskie trójkąty na płaszczyźnie równoległej nieco przed ekranem i zielony plusy w samolocie nieco przed tym. Płaszczyzna regresji pochyla się w dół w prawo, ale pochyla się w górę, gdy przesuwa się z ekranu w twoją stronę. Należy zauważyć, że zjawisko to występuje, ponieważ X1 i X2 są skorelowane, gdyby były nieskorelowane, szacowane bety byłyby takie same.

— gung - Przywróć Monikę

Ten rodzaj korelacji między predyktorami (np. Scenariusz @gung) jest zwykle przyczyną paradoksu Simpsona . We wszechświecie z więcej niż trzema zmiennymi dobrze jest pamiętać, że może to czaić się twoje wnioski (d'oh!).

— FairMiles,

@MSIS, gdy kontrolujesz zmienną w modelu, model próbuje utrzymać ją na stałym poziomie (ustaloną) w celu oszacowania całej reszty w modelu. Jest to jednak tylko próba i podlega losowemu błędowi, więc niekoniecznie musi być identyczna z tym, co byś otrzymał, gdybyś przeprowadził badanie z / zmienną fizycznie ustaloną dla danej wartości.

— gung - Przywróć Monikę

Są one nie ignorowane. Gdyby zostali „zignorowani”, nie byliby w tym modelu. Oszacowanie zmiennej objaśniającej zainteresowania jest uwarunkowane od innych zmiennych. Oszacowanie jest tworzone „w kontekście” lub „uwzględniając wpływ” innych zmiennych w modelu.

— DWin
źródło

Oszacowanie podlega oczywiście innym zmiennym. Ale musimy to oczyścić, wprowadzając do modelu tak zwane inne czynniki. Czasami jednak czynniki te mogą mieć charakter kategoryczny i powodować więcej problemów niż dać prawidłowe rozwiązanie.

— Subhash C. Davar,