Problemy z pułapką zmiennej manekina

10

Korzystam z dużej regresji OLS, w której wszystkie zmienne niezależne (około 400) są zmiennymi obojętnymi. Jeśli wszystkie są uwzględnione, istnieje doskonała wielokoliniowość (pułapka zmiennej manekina), więc muszę pominąć jedną ze zmiennych przed uruchomieniem regresji.

Moje pierwsze pytanie brzmi: która zmienna powinna zostać pominięta? Czytałem, że lepiej jest pominąć zmienną, która jest obecna w wielu obserwacjach, niż zmienną, która występuje tylko w kilku (np. Jeśli prawie wszystkie obserwacje są „męskie” lub „żeńskie”, a tylko kilka jest „nieznanych” ”, pomiń„ mężczyzna ”lub„ kobieta ”). Czy to jest uzasadnione?

Po uruchomieniu regresji z pominiętą zmienną jestem w stanie oszacować wartość współczynnika pominiętej zmiennej, ponieważ wiem, że ogólna średnia wszystkich moich zmiennych niezależnych powinna wynosić 0. Korzystam z tego faktu, aby przesunąć wartości współczynników dla wszystkich uwzględnione zmienne i uzyskaj oszacowanie dla pominiętej zmiennej. Moje następne pytanie dotyczy tego, czy istnieje jakaś podobna technika, której można użyć do oszacowania błędu standardowego dla wartości współczynnika pominiętej zmiennej. W tej chwili muszę ponownie uruchomić regresję, pomijając inną zmienną (i włączając zmienną, którą pominąłem w pierwszej regresji), aby uzyskać oszacowanie błędu standardowego dla współczynnika pierwotnie pominiętej zmiennej.

Wreszcie zauważam, że szacunki współczynników, które otrzymuję (po ponownym wyśrodkowaniu wokół zera) różnią się nieznacznie w zależności od tego, która zmienna zostanie pominięta. Teoretycznie, czy lepiej byłoby przeprowadzić kilka regresji, z których każda pomija inną zmienną, a następnie uśrednić oszacowania współczynnika ze wszystkich regresji?

categorical-data

— James Davison
źródło

Czy możesz wyjaśnić, co rozumiesz przez „ogólna średnia wszystkich moich zmiennych niezależnych powinna wynosić 0” i skąd to wiesz?

— onestop

Zasadniczo chcę ocenić wszystkie zmienne w stosunku do średniej (średnia wszystkich zmiennych). Współczynniki regresji są względne w stosunku do zmiennej pominiętej. Kiedy więc odejmuję średnią wszystkich współczynników (w tym współczynnik pominiętej zmiennej 0) od każdej wartości współczynnika, skorygowane wartości będą teraz wynosić średnio 0, a każdą wartość współczynnika można postrzegać jako odległość od średniej.

— James Davison,

8

Powinieneś otrzymać „takie same” oszacowania bez względu na zmienną, którą pomijasz; te współczynniki mogą być różne, ale szacunki konkretnych ilościach lub oczekiwań powinny być takie same we wszystkich modelach.

W prostym przypadku niech dla mężczyzn i 0 dla kobiet. Następnie mamy model: Teraz niech dla kobiet. Następnie Oczekiwana wartość dla kobiet to a także . Dla mężczyzn jest to $x_i=1$

\begin{aligned} E [y_{i} ∣ x_{i}] & = x_{i} E [y_{i} ∣ x_{i} = 1] + (1 - x_{i}) E [y_{i} ∣ x_{i} = 0] \\ = E [y_{i} ∣ x_{i} = 0] + [E [y_{i} ∣ x_{i} = 1] - E [y_{i} ∣ x_{i} = 0]] x_{i} \\ = β_{0} + β_{1} x_{i} . \end{aligned}

$\begin{align*} E[y_i \mid x_i] &= x_iE[y_i \mid x_i = 1] + (1 - x_i)E[y_i \mid x_i = 0] \\ &= E[y_i \mid x_i=0] + \left[E[y_i \mid x_i= 1] - E[y_i \mid x_i=0]\right]x_i \\ &= \beta_0 + \beta_1 x_i. \end{align*}$

z_{i} = 1

$z_i=1$

\begin{aligned} E [y_{i} ∣ z_{i}] & = z_{i} E [y_{i} ∣ z_{i} = 1] + (1 - z_{i}) E [y_{i} ∣ z_{i} = 0] \\ = E [y_{i} ∣ z_{i} = 0] + [E [y_{i} ∣ z_{i} = 1] - E [y_{i} ∣ z_{i} = 0]] z_{i} \\ = γ_{0} + γ_{1} z_{i} . \end{aligned}

$\begin{align*} E[y_i \mid z_i] &= z_iE[y_i \mid z_i = 1] + (1 - z_i)E[y_i \mid z_i = 0] \\ &= E[y_i \mid z_i=0] + \left[E[y_i \mid z_i= 1] - E[y_i \mid z_i=0]\right]z_i \\ &= \gamma_0 + \gamma_1 z_i . \end{align*}$

y

$y$

β_{0}

$\beta_0$

γ_{0} + γ_{1}

$\gamma_0 + \gamma_1$

β_{0} + β_{1}

$\beta_0 + \beta_1$ i .

γ_{0}

$\gamma_0$

Te wyniki pokazują, w jaki sposób powiązane są współczynniki z dwóch modeli. Na przykład . Podobne ćwiczenie z wykorzystaniem danych powinno pokazać, że „różne” współczynniki, które otrzymujesz, są tylko sumami i różnicami między sobą. $\beta_1 = -\gamma_1$

— Charlie
źródło

4

James, po pierwsze, dlaczego analiza regresji, ale nie ANOVA (istnieje wielu specjalistów w tego rodzaju analizach, którzy mogą ci pomóc)? Do zalet dla ANOVA jest to, że wszystko, co rzeczywiście zainteresowany różnice w użyciu różnych grup opisanych kombinacji zmiennych binarnych (unikalne kategorie, lub profile). Cóż, jeśli przestudiujesz wpływ każdej uwzględnionej zmiennej jakościowej, możesz również przeprowadzić regresję.

Myślę, że rodzaj danych, które tutaj posiadasz, jest opisany w sensie analizy łącznej : wiele atrybutów obiektu (płeć, wiek, wykształcenie itd.), Każda z nich ma kilka kategorii, dlatego pomijasz cały największy profil, a nie tylko jedna zmienna fikcyjna. Powszechną praktyką jest kodowanie kategorii w atrybucie w następujący sposób (ten link może być przydatny, prawdopodobnie nie przeprowadzasz tutaj analizy łącznej, ale kodowanie jest podobne): załóżmy, że masz kategorii (trzy, jak sugerowałeś, mężczyzna, kobieta , nieznane), więc pierwsze dwa są kodowane jak zwykle, w tym dwa manekiny (mężczyzna, kobieta), co daje jeśli mężczyzna, jeśli kobieta i $n$ $(1, 0)$ $(0, 1)$ $(-1, -1)$ jeśli nieznany W ten sposób wyniki zostaną umieszczone wokół terminu przechwycenia. Możesz jednak kodować w inny sposób, ale stracisz wspomnianą przewagę interpretacyjną. Podsumowując, upuszczasz jedną kategorię z każdej kategorii i kodujesz swoje obserwacje w opisany sposób. Podajesz także termin przechwytywania.

Cóż, pominięcie kategorii największego profilu wydaje mi się dobre, choć nie tak ważne, przynajmniej nie jest puste. Ponieważ kodujesz zmienne w określony sposób, łączna istotność statystyczna uwzględnionych zmiennych obojętnych (obie kobiety płci męskiej, mogą być testowane testem F) implikuje znaczenie pominiętej.

Może się zdarzyć, że wyniki będą nieco inne, ale może to źle wpływa na kodowanie?

— Dmitrij Celov
źródło

Proszę o wybaczenie, jeśli moje pismo nie jest jasne, na Litwie jest północ.

— Dmitrij Celov,

Dlaczego twoja nieznana (-1, -1) zamiast (0,0)?

— siamii

1

Czy nie znając dokładnej natury swojej analizy, zastanawiałeś się nad kodowaniem efektów? W ten sposób każda zmienna reprezentowałaby efekt tej cechy / atrybutu względem ogólnej wielkiej średniej, a nie jakiejś konkretnie pominiętej kategorii. Uważam, że nadal brakuje Ci współczynnika dla jednej z kategorii / atrybutów - tej, do której przypisujesz -1. Mimo to, przy tak wielu manekinach, sądzę, że wielki środek stworzyłby bardziej znaczącą grupę porównawczą niż jakakolwiek konkretna pominięta kategoria.

— słychać
źródło