Zrozumienie AIC i kryterium Schwarz

Korzystam z modelu logistycznego. Rzeczywisty zestaw danych modelu zawiera ponad 100 zmiennych, ale wybieram zestaw danych testowych, w którym jest około 25 zmiennych. Wcześniej stworzyłem również zestaw danych, który zawierał 8–9 zmiennych. Powiedziano mi, że do porównania modelu można użyć wartości AIC i SC. Zauważyłem, że model ma wyższe wartości SC, nawet gdy zmienna ma niskie wartości p (np. 0053). Według mojej intuicji model, który ma zmienne o dobrym poziomie istotności, powinien dawać niskie wartości SC i AIC. Ale tak się nie dzieje. Czy ktoś może to wyjaśnić. Krótko mówiąc, chcę zadać następujące pytania:

Czy liczba zmiennych ma coś wspólnego z SC AIC?
Czy powinienem skoncentrować się na wartościach p lub niskich wartościach SC AIC?
Jakie są typowe sposoby zmniejszania wartości SC AIC?

model-selection logistic aic

— ayush biyani
źródło

Odpowiedzi:

$-2\log(\ell)+2k$ $k$ $p$

Sugerowałbym przyjrzenie się regresji karanej , która pozwala na dokonanie wyboru zmiennej, aby uniknąć problemów z przeregulowaniem. Jest to omówione w Strategiach modelowania regresji Franka Harrella (str. 207 i nast.) Lub Moons i wsp., Penalizowane oszacowanie maksymalnego prawdopodobieństwa w celu bezpośredniego dostosowania modeli prognostycznych i prognostycznych dla nadmiernej optymizmu: przykład kliniczny , J Clin Epid (2004) 57 ( 12).

Zobacz także pakiety Design ( lrm) i stepPlr ( step.plr) R lub pakiet ukarany . Możesz przeglądać powiązane pytania dotyczące wyboru zmiennych w tym SE.

— chl
źródło

Cześć {Hi} chl, Dziękuję za odpowiedź .. Przyznaję, że dostałem trochę informacji od twojej odpowiedzi .. Pozwól mi wyrazić zrozumienie, a następnie możesz skomentować proszę. (1) Otrzymuję podpowiedź, że wartości P mogą spaść, jeśli twoja próbka jest duża ... - Czy to prawda? W moim rozumieniu wartości p mogą pokazać tylko, czy hipoteza zerowa jest odrzucana. (2) Rozumiem teraz, że muszę widzieć różnicę w wartościach AIC tylko z przechwytywaniem i współzmiennymi. Wydaje mi się, że kiedy mówimy, że chcemy obniżyć AIC, mamy na myśli ten sam zestaw danych. Dostaję postaci lewo w moim komentarzu więc skomentować znowu raz odpowiesz proszę

— Ayush biyani

@ayush (1) statystyki testu (np. Wald) zależą od wielkości próbki (błąd standardowy zmniejsza się wraz ze wzrostem wielkości próbki, a przy większej próbce prawdopodobnie uzyskasz niższe wartości p). (2) tak, chociaż AIC może być wykorzystywany do porównywania modeli nie zagnieżdżonych, tutaj myślałem o tym jako o sposobie porównywania różnych modeli o coraz większej złożoności.

— chl

dzięki jeszcze raz. Teraz rozumiem istotę wartości p. Jakieś 5 minut wstecz uruchomiłem model, który daje mi wartości p poniżej 0,05 dla wszystkich zmiennych, ale AIC 28238.407 tylko z przechwyceniem i ze zmiennymi towarzyszącymi 21507.933. Mam również przypadek, w którym AIC to 16035.xy tylko z przechwytywaniem i ze zmiennymi towarzyszącymi 4234.xy. Jak oceniasz porównanie dwóch przypadków? Należy pamiętać, że drugi model miał różne zmienne 25 var, podczas gdy pierwszy miał 20., więc drugi miał więcej zmiennych (25 w porównaniu do 20) miał niższy AIC. Chociaż wartości p nie były dla wszystkich 0,05. Proszę zasugerować ... więcej, aby zapytać po tym .. Dzięki.

— ayush biyani

@ayush Trudno odpowiedzieć na pytanie o jakość modelu, nie wiedząc, jak zmienne zostały wybrane. Różnica w AIC między modelem zawierającym tylko punkt przecięcia a niektórymi zmiennymi towarzyszącymi daje wskazanie o „sile wyjaśniającej” tych predyktorów (odchylenie resztkowe wydaje się znacznie zmniejszać w drugim przypadku, który pokazałeś, a AIC karze za # parametry, jak powiedziałem w mojej odpowiedzi). Nie jest to pełna odpowiedź na temat znaczenia tych predyktorów. Sugeruję, abyś zadał bardziej szczegółowe pytanie (IMO), np. Na temat wyboru zmiennych w GLM do konkretnego badania.

— chl

Grupowanie SC i AIC razem jest złe . Są to bardzo różne rzeczy, nawet jeśli ludzie bardzo je niewłaściwie wykorzystują. AIC ma znaczenie, gdy przewidujesz różne rzeczy, użycie SC w tym scenariuszu może prowadzić (nie zawsze) do błędnych wyników. Podobnie, jeśli jesteś zainteresowany dokonaniem wyboru modelu z zasadą parsimony (Razor Occam) SC, lepiej. Nie chcę wchodzić w szczegóły teoretyczne, ale w skrócie: SC - dobre dla oszczędnych modeli, gdy chcesz czegoś równoważnego najprostszemu możliwemu modelowi do wyjaśnienia swoich danych, AIC - Kiedy chcesz przewidzieć. AIC nie zakłada, że twój prawdziwy model leży w przestrzeni modelu, w której podobnie jak SC.

Po drugie, jednoczesne stosowanie wartości p i kryteriów informacyjnych może również wprowadzać w błąd, jak wyjaśnia chl .

— suncoolsu
źródło