po dokonaniu stopniowej selekcji opartej na kryterium AIC mylące jest spojrzenie na wartości p w celu przetestowania hipotezy zerowej, że każdy prawdziwy współczynnik regresji wynosi zero.
Rzeczywiście, wartości p reprezentują prawdopodobieństwo zobaczenia statystyki testowej co najmniej tak ekstremalnej jak ta, którą masz, gdy hipoteza zerowa jest prawdziwa. Jeśli jest prawdziwe, wartość p powinna mieć rozkład równomierny.H.0
Ale po stopniowej selekcji (a nawet po wielu innych podejściach do selekcji modelu) wartości p tych terminów, które pozostają w modelu, nie mają tej właściwości, nawet jeśli wiemy, że hipoteza zerowa jest prawdziwa.
Dzieje się tak, ponieważ wybieramy zmienne, które mają lub mają małe wartości p (w zależności od zastosowanych przez nas precyzyjnych kryteriów). Oznacza to, że wartości p zmiennych pozostawionych w modelu są zwykle znacznie mniejsze niż byłyby, gdybyśmy dopasowali jeden model. Zauważ, że wybór wybierze średnio modele, które wydają się pasować nawet lepiej niż prawdziwy model, jeśli klasa modeli obejmuje prawdziwy model lub jeśli klasa modeli jest wystarczająco elastyczna, aby ściśle przybliżyć prawdziwy model.
[Ponadto i zasadniczo z tego samego powodu pozostałe współczynniki są stronnicze od zera, a ich standardowe błędy są stronnicze na niskim poziomie; to z kolei wpływa również na przedziały ufności i prognozy - na przykład nasze prognozy będą zbyt wąskie.]
Aby zobaczyć te efekty, możemy zastosować regresję wielokrotną, w której niektóre współczynniki wynoszą 0, a niektóre nie, wykonaj procedurę krokową, a następnie w przypadku modeli zawierających zmienne, które miały zerowe współczynniki, spójrz na otrzymane wartości p.
(W tej samej symulacji możesz spojrzeć na szacunki i odchylenia standardowe dla współczynników i odkryć te, które odpowiadają niezerowym współczynnikom.)
Krótko mówiąc, niewłaściwe jest uznawanie zwykłych wartości p za znaczące.
Słyszałem, że wszystkie zmienne pozostawione w modelu należy uznać za znaczące.
Jeśli chodzi o to, czy wszystkie wartości w modelu po kroku powinny być „uważane za znaczące”, nie jestem pewien, w jakim stopniu jest to użyteczny sposób spojrzenia na to. Co zatem oznacza „znaczenie”?
Oto wynik uruchomienia R stepAIC
z domyślnymi ustawieniami na 1000 próbkach symulowanych przy n = 100 i dziesięciu zmiennych kandydujących (z których żadna nie jest związana z odpowiedzią). W każdym przypadku policzono liczbę terminów pozostałych w modelu:
Tylko 15,5% czasu wybrano właściwy model; przez resztę czasu model zawierał warunki, które nie różniły się od zera. Jeśli faktycznie jest możliwe, że w zestawie zmiennych kandydujących występują zmienne o zerowym współczynniku, prawdopodobnie będziemy mieli kilka terminów, w których prawdziwy współczynnik wynosi zero w naszym modelu. W rezultacie nie jest jasne, że dobrym pomysłem jest uznanie ich wszystkich za niezerowe.