Dlaczego wartości p wprowadzają w błąd po dokonaniu selekcji stopniowej?

Rozważmy na przykład model regresji liniowej. Słyszałem, że w eksploracji danych, po przeprowadzeniu selekcji krokowej na podstawie kryterium AIC, mylące jest spojrzenie na wartości p w celu przetestowania hipotezy zerowej, że każdy prawdziwy współczynnik regresji wynosi zero. Słyszałem, że należy rozważyć wszystkie zmienne pozostawione w modelu jako mające prawdziwy współczynnik regresji różny od zera. Czy ktoś może mi wyjaśnić, dlaczego? Dziękuję Ci.

— John M.
źródło

Oto więcej informacji. Przytoczone tam odniesienia są również pomocne.

— S. Kolassa - Przywróć Monikę

W theoreticalecology.wordpress.com/2018/05/03/… pokazuję kod R pokazujący inflację typu I po wyborze AIC. Zauważ, że nie ma znaczenia, czy jest to krokowe czy globalne, chodzi o to, że wybór modelu to w zasadzie wielokrotne testowanie.

— Florian Hartig

po dokonaniu stopniowej selekcji opartej na kryterium AIC mylące jest spojrzenie na wartości p w celu przetestowania hipotezy zerowej, że każdy prawdziwy współczynnik regresji wynosi zero.

Rzeczywiście, wartości p reprezentują prawdopodobieństwo zobaczenia statystyki testowej co najmniej tak ekstremalnej jak ta, którą masz, gdy hipoteza zerowa jest prawdziwa. Jeśli jest prawdziwe, wartość p powinna mieć rozkład równomierny. $H_0$

Ale po stopniowej selekcji (a nawet po wielu innych podejściach do selekcji modelu) wartości p tych terminów, które pozostają w modelu, nie mają tej właściwości, nawet jeśli wiemy, że hipoteza zerowa jest prawdziwa.

Dzieje się tak, ponieważ wybieramy zmienne, które mają lub mają małe wartości p (w zależności od zastosowanych przez nas precyzyjnych kryteriów). Oznacza to, że wartości p zmiennych pozostawionych w modelu są zwykle znacznie mniejsze niż byłyby, gdybyśmy dopasowali jeden model. Zauważ, że wybór wybierze średnio modele, które wydają się pasować nawet lepiej niż prawdziwy model, jeśli klasa modeli obejmuje prawdziwy model lub jeśli klasa modeli jest wystarczająco elastyczna, aby ściśle przybliżyć prawdziwy model.

[Ponadto i zasadniczo z tego samego powodu pozostałe współczynniki są stronnicze od zera, a ich standardowe błędy są stronnicze na niskim poziomie; to z kolei wpływa również na przedziały ufności i prognozy - na przykład nasze prognozy będą zbyt wąskie.]

Aby zobaczyć te efekty, możemy zastosować regresję wielokrotną, w której niektóre współczynniki wynoszą 0, a niektóre nie, wykonaj procedurę krokową, a następnie w przypadku modeli zawierających zmienne, które miały zerowe współczynniki, spójrz na otrzymane wartości p.

(W tej samej symulacji możesz spojrzeć na szacunki i odchylenia standardowe dla współczynników i odkryć te, które odpowiadają niezerowym współczynnikom.)

Krótko mówiąc, niewłaściwe jest uznawanie zwykłych wartości p za znaczące.

Słyszałem, że wszystkie zmienne pozostawione w modelu należy uznać za znaczące.

Jeśli chodzi o to, czy wszystkie wartości w modelu po kroku powinny być „uważane za znaczące”, nie jestem pewien, w jakim stopniu jest to użyteczny sposób spojrzenia na to. Co zatem oznacza „znaczenie”?

Oto wynik uruchomienia R stepAICz domyślnymi ustawieniami na 1000 próbkach symulowanych przy n = 100 i dziesięciu zmiennych kandydujących (z których żadna nie jest związana z odpowiedzią). W każdym przypadku policzono liczbę terminów pozostałych w modelu:

Tylko 15,5% czasu wybrano właściwy model; przez resztę czasu model zawierał warunki, które nie różniły się od zera. Jeśli faktycznie jest możliwe, że w zestawie zmiennych kandydujących występują zmienne o zerowym współczynniku, prawdopodobnie będziemy mieli kilka terminów, w których prawdziwy współczynnik wynosi zero w naszym modelu. W rezultacie nie jest jasne, że dobrym pomysłem jest uznanie ich wszystkich za niezerowe.

— Glen_b - Przywróć Monikę
źródło

Zdaniem „Słyszałem, że wszystkie zmienne pozostawione w modelu należy uznać za znaczące”. Miałem na myśli: „Słyszałem, że wszystkie zmienne pozostałe w modelu należy uznać za mające prawdziwy współczynnik regresji różny od zera”

— John M

W porządku; Dodałem wyniki symulacji, która do tego przemawia.

— Glen_b

+1 W ten weekend robiłem te same symulacje, aby przygotować się do zajęć na temat metod wyboru modelu. Otrzymałem te same wzorce wyników, badając do zmiennych i stosując obserwacji. Następnym krokiem jest sprawdzenie, co może zrobić korekta Bonferroniego ...

k = 3

$k=3$

39

$39$

10 k

$10k$

— whuber

@ Whuber rzeczywiście, zobaczenie, jaki wpływ miałby Bonferroni (na różne aspekty problemu), było moją bezpośrednią skłonnością do ukończenia powyższej symulacji, ale to nie jest to, co ludzie robią krok po kroku, więc nie zająłem się to tutaj. Byłbym zafascynowany słysząc, jak omawiasz metody wyboru modelu. Spodziewam się, że sporo się nauczę.

— Glen_b

@Glen_b: (Cytat z twojej odpowiedzi) Oznacza to, że wartości p zmiennych pozostawionych w modelu są zwykle znacznie mniejsze niż byłyby, gdybyśmy dopasowali jeden model, nawet „gdyby ten model, który pasujemy, byłby ten, który wygenerował dane, niezależnie od tego, czy prawdziwy model ma wartość zerową, czy nie ". Czy możesz wyjaśnić nieco podświetloną część? Jak to możliwe, że wartości p są mniejsze w modelu, który ma taką samą specyfikację jak proces generowania danych (prawdziwy model)?

— shani

Analogia może pomóc. Regresja krokowa, gdy zmienne kandydujące są zmiennymi wskaźnikowymi (obojętnymi) reprezentującymi wzajemnie wykluczające się kategorie (jak w ANOVA), odpowiada dokładnie wybraniu grup, które należy połączyć, poprzez sprawdzenie, które grupy są minimalnie różne za pomocą testów . Jeśli oryginalna ANOVA była testowana względem ale końcowe zwinięte grupy są testowane względem gdzie wynikowa statystyka nie ma rozkładu a fałszywie dodatnie prawdopodobieństwo wymknie się spod kontroli. $t$ $F_{p-1, n-p-1}$ $F_{q-1, n-q-1}$ $q < p$ $F$

— Frank Harrell
źródło