Korzystam z dużej regresji OLS, w której wszystkie zmienne niezależne (około 400) są zmiennymi obojętnymi. Jeśli wszystkie są uwzględnione, istnieje doskonała wielokoliniowość (pułapka zmiennej manekina), więc muszę pominąć jedną ze zmiennych przed uruchomieniem regresji.
Moje pierwsze pytanie brzmi: która zmienna powinna zostać pominięta? Czytałem, że lepiej jest pominąć zmienną, która jest obecna w wielu obserwacjach, niż zmienną, która występuje tylko w kilku (np. Jeśli prawie wszystkie obserwacje są „męskie” lub „żeńskie”, a tylko kilka jest „nieznanych” ”, pomiń„ mężczyzna ”lub„ kobieta ”). Czy to jest uzasadnione?
Po uruchomieniu regresji z pominiętą zmienną jestem w stanie oszacować wartość współczynnika pominiętej zmiennej, ponieważ wiem, że ogólna średnia wszystkich moich zmiennych niezależnych powinna wynosić 0. Korzystam z tego faktu, aby przesunąć wartości współczynników dla wszystkich uwzględnione zmienne i uzyskaj oszacowanie dla pominiętej zmiennej. Moje następne pytanie dotyczy tego, czy istnieje jakaś podobna technika, której można użyć do oszacowania błędu standardowego dla wartości współczynnika pominiętej zmiennej. W tej chwili muszę ponownie uruchomić regresję, pomijając inną zmienną (i włączając zmienną, którą pominąłem w pierwszej regresji), aby uzyskać oszacowanie błędu standardowego dla współczynnika pierwotnie pominiętej zmiennej.
Wreszcie zauważam, że szacunki współczynników, które otrzymuję (po ponownym wyśrodkowaniu wokół zera) różnią się nieznacznie w zależności od tego, która zmienna zostanie pominięta. Teoretycznie, czy lepiej byłoby przeprowadzić kilka regresji, z których każda pomija inną zmienną, a następnie uśrednić oszacowania współczynnika ze wszystkich regresji?