Z tego, co rozumiem, wybór zmiennych oparty na wartościach p (przynajmniej w kontekście regresji) jest wysoce wadliwy. Wygląda na to, że wybór zmiennych oparty na AIC (lub podobny) jest przez niektórych uważany za wadliwy, chociaż wydaje się to nieco niejasne (np. Patrz moje pytanie i kilka linków na ten temat tutaj: Czym dokładnie jest „stopniowy wybór modelu”? ).
Ale powiedz, że wybierasz jedną z tych dwóch metod, aby wybrać najlepszy zestaw predyktorów w swoim modelu.
Burnham i Anderson 2002 (Wybór modelu i wnioskowanie multimodelowe: Praktyczne podejście teoretyczno-informacyjne, strona 83) stwierdzają, że nie należy mieszać wyboru zmiennych opartych na AIC z wyborem opartym na testowaniu hipotez : „Testy zerowych hipotez i podejść teoretyczno-informacyjnych powinny nie mogą być używane razem; są to bardzo różne paradygmaty analizy ”.
Zuur i in. 2009 (Modele z efektami mieszanymi z rozszerzeniami w ekologii z R, strona 541) wydają się opowiadać się za wykorzystaniem AIC do znalezienia optymalnego modelu, a następnie do przeprowadzenia „dostrajania” za pomocą testowania hipotez : „Wadą jest to, że AIC może być konserwatywny , a może być konieczne zastosowanie drobnego dostrajania (przy użyciu testowania hipotez z pierwszego podejścia) po wybraniu przez AIC optymalnego modelu ”.
Możesz zobaczyć, jak to powoduje, że czytelnik obu książek jest zdezorientowany, jakie podejście zastosować.
1) Czy są to po prostu różne „obozy” myślenia statystycznego i temat niezgody między statystykami? Czy jedno z tych podejść jest teraz po prostu „nieaktualne”, ale zostało uznane za właściwe w momencie pisania? A może od samego początku jest po prostu coś złego?
2) Czy istniałby scenariusz, w którym takie podejście byłoby odpowiednie? Na przykład pochodzę z pochodzenia biologicznego, gdzie często próbuję ustalić, które zmienne, jeśli w ogóle, wydają się wpływać na moją odpowiedź. Często mam wiele zmiennych objaśniających kandydatów i staram się znaleźć, które są „ważne” (w kategoriach względnych). Należy również zauważyć, że zestaw kandydujących zmiennych predykcyjnych jest już zredukowany do tych, które uważa się za mające znaczenie biologiczne, ale może to nadal obejmować 5-20 potencjalnych predyktorów.