Myślę, że takie podejście jest błędne, ale być może będzie bardziej pomocne, jeśli wyjaśnię dlaczego. Chęć poznania najlepszego modelu z pewnymi informacjami o dużej liczbie zmiennych jest dość zrozumiała. Co więcej, jest to sytuacja, w której ludzie wydają się regularnie znajdować. Ponadto wiele podręczników (i kursów) na temat regresji obejmuje metody selekcji krokowej, co oznacza, że muszą być one zgodne z prawem. Niestety tak nie jest, a parowanie tej sytuacji i celu jest dość trudne do pomyślnej nawigacji. Poniżej znajduje się lista problemów z automatycznymi procedurami wyboru modelu krokowego (przypisanymi do Franka Harrella i skopiowanymi stąd ):
- Daje wartości R do kwadratu, które są źle nastawione, aby były wysokie.
- Testy F i chi-kwadrat podane przy każdej zmiennej na wydruku nie mają deklarowanego rozkładu.
- Metoda daje przedziały ufności dla efektów i przewidywane wartości, które są fałszywie wąskie; patrz Altman i Andersen (1989).
- Daje wartości p, które nie mają właściwego znaczenia, a odpowiednia ich korekta jest trudnym problemem.
- Daje tendencyjne współczynniki regresji, które wymagają skurczu (współczynniki pozostałych zmiennych są zbyt duże; patrz Tibshirani [1996]).
- Ma poważne problemy w obecności kolinearności.
- Opiera się na metodach (np. Testach F dla modeli zagnieżdżonych), które zostały przeznaczone do testowania wcześniej określonych hipotez.
- Zwiększenie wielkości próbki niewiele pomaga; patrz Derksen i Keselman (1992).
- Pozwala nam nie myśleć o problemie.
- Zużywa dużo papieru.
Pytanie brzmi: co jest tak złego w tych procedurach / dlaczego te problemy występują? Większość osób, które ukończyły podstawowy kurs regresji, zna pojęcie regresji do średniej , dlatego używam jej do wyjaśnienia tych problemów. (Chociaż może to początkowo wydawać się nie na temat, proszę o wyrozumiałość, obiecuję, że ma to znaczenie.)
Wyobraź sobie szkolnego trenera torów pierwszego dnia prób. Pojawia się trzydzieści dzieci. Te dzieci mają pewien podstawowy poziom wewnętrznej zdolności, do którego ani trener, ani nikt inny nie ma bezpośredniego dostępu. W rezultacie trener robi jedyne, co może zrobić, a mianowicie, że wszyscy biegną na 100 metrów. Czasy są prawdopodobnie miarą ich wewnętrznej zdolności i są traktowane jako takie. Są jednak probabilistyczne; pewna część tego, jak dobrze robi ktoś, zależy od jego faktycznej zdolności, a inna część jest losowa. Wyobraź sobie, że prawdziwa sytuacja jest następująca:
set.seed(59)
intrinsic_ability = runif(30, min=9, max=10)
time = 31 - 2*intrinsic_ability + rnorm(30, mean=0, sd=.5)
Wyniki pierwszego wyścigu pokazano na poniższym rysunku wraz z komentarzami trenera dla dzieci.
Pamiętaj, że podział dzieci według czasu wyścigu nakłada się na ich wewnętrzne zdolności - ten fakt jest kluczowy. Po chwaleniu niektórych i krzyczeniu na innych (jak to zwykle robią trenerzy), każe im biegać ponownie. Oto wyniki drugiego wyścigu z reakcjami trenera (symulowane z tego samego modelu powyżej):
Zauważ, że ich wewnętrzna zdolność jest identyczna, ale czasy odbijają się w stosunku do pierwszej rasy. Z punktu widzenia trenera ci, na których krzyczał, mieli tendencję do poprawy, a ci, których chwalił, mieli tendencję do gorszych (zaadaptowałem ten konkretny przykład z cytatu Kahnemana wymienionego na stronie wiki), chociaż tak naprawdę regresja do średniej jest prostą matematyką konsekwencja faktu, że trener wybiera sportowców do drużyny na podstawie częściowo losowego pomiaru.
Co to ma wspólnego z automatycznymi (np. Krokowymi) technikami wyboru modelu? Opracowanie i potwierdzenie modelu opartego na tym samym zestawie danych jest czasem nazywane pogłębianiem danych. Chociaż istnieje pewna zależność między zmiennymi i oczekuje się, że silniejsze relacje przyniosą lepsze wyniki (np. Wyższe statystyki t), są to zmienne losowe, a zrealizowane wartości zawierają błąd. Zatem, gdy wybierzesz zmienne w oparciu o posiadanie wyższych (lub niższych) wartości zrealizowanych, mogą one być takie z powodu ich prawdziwej wartości, błędu lub obu. Jeśli będziesz postępować w ten sposób, będziesz równie zaskoczony, jak trener po drugim wyścigu. Dzieje się tak niezależnie od tego, czy wybierasz zmienne w oparciu o wysokie statystyki t, czy niskie współzależności. To prawda, że użycie AIC jest lepsze niż użycie wartości p, ponieważ karze model za złożoność, ale sam AIC jest zmienną losową (jeśli uruchomisz badanie kilka razy i dopasujesz ten sam model, AIC odbije się tak samo jak wszystko inne). Niestety,
Mam nadzieję, że to jest pomocne.