Typowe procedury wyboru zmiennych oparte na danych (na przykład do przodu, do tyłu, krokowo, wszystkie podzbiory) mają tendencję do uzyskiwania modeli o niepożądanych właściwościach, w tym:
- Współczynniki odchylone od zera.
- Błędy standardowe, które są zbyt małe, a przedziały ufności, które są zbyt wąskie.
- Testuj statystyki i wartości p, które nie mają reklamowanego znaczenia.
- Szacunki dotyczące dopasowania modelu są zbyt optymistyczne.
- Zawarte terminy, które mogą być bez znaczenia (np. Wykluczenie terminów niższego rzędu).
Utrzymują się jednak różne procedury selekcji. Biorąc pod uwagę problemy z wyborem zmiennych, dlaczego te procedury są konieczne? Co motywuje ich użycie?
Kilka propozycji rozpoczęcia dyskusji ....
- Pragnienie interpretowalnych współczynników regresji? (Nieudany w modelu z wieloma IV?)
- Wyeliminować wariancję wprowadzoną przez zmienne nieistotne?
- Wyeliminować niepotrzebne kowariancje / zwolnienia wśród zmiennych niezależnych?
- Zmniejsz liczbę oszacowań parametrów (problemy z mocą, wielkość próby)
Czy są jeszcze inni? Czy problemy rozwiązane przez techniki selekcji zmiennych są mniej lub bardziej ważne niż problemy wprowadzane przez procedury selekcji zmiennych? Kiedy należy ich używać? Kiedy nie należy ich używać?