W psychologii i innych dziedzinach często stosuje się formę regresji stopniowej, która obejmuje:
- Spójrz na pozostałe predyktory (początkowo nie ma ich w modelu) i zidentyfikuj predyktor, który powoduje największą zmianę r-kwadrat;
- Jeśli wartość p zmiany r-kwadrat jest mniejsza niż alfa (zazwyczaj 0,05), to włącz ten predyktor i wróć do kroku 1, w przeciwnym razie zatrzymaj się.
Na przykład zobacz tę procedurę w SPSS .
Procedura jest rutynowo krytykowana z wielu różnych powodów (patrz ta dyskusja na stronie internetowej Stata z odnośnikami ).
W szczególności strona internetowa Stata podsumowuje kilka komentarzy Franka Harrella. Jestem zainteresowany roszczeniem:
[regresja krokowa] daje wartości R-kwadrat, które są źle ukierunkowane na wysokie.
W szczególności niektóre z moich obecnych badań koncentrują się na szacowaniu populacji r-kwadrat . Przez populację r-kwadrat odnoszę się do procentu wariancji wyjaśnionego przez dane populacji generujące równanie w populacji. Wiele z istniejącej literatury, którą recenzuję, stosuje procedury regresji krokowej i chcę wiedzieć, czy przedstawione szacunki są stronnicze, a jeśli tak, to o ile. W szczególności typowe badanie miałoby 30 predyktorów, n = 200, alfa wejścia 0,05, a szacunki r-kwadrat około 0,5.
Co wiem:
- Asymptotycznie, każdy predyktor o niezerowym współczynniku byłby statystycznie istotnym predyktorem, a r-kwadrat równałby się skorygowanemu r-kwadratowi. Zatem asymptotycznie regresja krokowa powinna oszacować prawdziwe równanie regresji i prawdziwą populację r-kwadrat.
- Przy mniejszych próbkach możliwe pominięcie niektórych predyktorów spowoduje mniejszy kwadrat r niż w przypadku uwzględnienia wszystkich predyktorów w modelu. Ale również zwykłe odchylenie danych r-kwadrat do próbek zwiększyłoby r-kwadrat. Tak więc moją naiwną myślą jest to, że potencjalnie te dwie przeciwstawne siły mogą w pewnych warunkach skutkować bezstronnym kwadratem r. Mówiąc bardziej ogólnie, kierunek odchylenia byłby zależny od różnych cech danych i kryteriów włączenia alfa.
- Ustawienie bardziej rygorystycznego kryterium włączenia alfa (np. 0,01, 0,001 itd.) Powinno obniżyć oczekiwany szacowany r-kwadrat, ponieważ prawdopodobieństwo włączenia dowolnego predyktora do dowolnej generacji danych będzie mniejsze.
- Zasadniczo, r-kwadrat jest uprzedzonym w górę oszacowaniem populacji r-kwadrat, a stopień tego obciążenia wzrasta wraz z większą liczbą predyktorów i mniejszymi wielkościami próby.
Pytanie
Wreszcie moje pytanie:
- W jakim stopniu r-kwadrat z regresji krokowej powoduje tendencyjne oszacowanie r-kwadratu populacji?
- W jakim stopniu to odchylenie jest związane z rozmiarem próbki, liczbą predyktorów, kryterium włączenia alfa lub właściwościami danych?
- Czy są jakieś odniesienia na ten temat?