Wybór zmiennych a wybór modelu

Rozumiem więc, że wybór zmiennych jest częścią wyboru modelu. Ale na czym dokładnie polega wybór modelu? Czy to coś więcej niż następujące:

1) wybierz rozkład dla swojego modelu

2) wybrać zmienne objaśniające,?

Pytam o to, ponieważ czytam artykuł Burnham i Anderson: AIC kontra BIC, w którym mówią o AIC i BIC w wyborze modeli. Czytając ten artykuł, zdaję sobie sprawę, że myślałem o „wyborze modelu” jako o „wyborze zmiennej” (zob. Komentarze Czy BIC próbuje znaleźć prawdziwy model? )

Fragment artykułu, w którym mówią o 12 modelach o rosnącym stopniu „ogólności”, a modele te pokazują „zwężające się efekty” (ryc. 1), gdy wykreślono informacje KL względem 12 modeli:

RÓŻNE FILOZOFIE I MODELE DOCELOWE ... Mimo że cel BIC jest bardziej ogólnym modelem niż model docelowy dla AIC, model najczęściej wybierany tutaj przez BIC będzie mniej ogólny niż Model 7, chyba że n jest bardzo duży. Może to być Model 5 lub 6. Wiadomo (z licznych prac i symulacji w literaturze), że w kontekście zwężających się efektów (Ryc. 1) AIC działa lepiej niż BIC. Jeśli taki jest kontekst analizy danych rzeczywistych, należy zastosować AIC.

Jak można BIC kiedykolwiek wybrać model bardziej skomplikowany niż AIC w wyborze modelu nie rozumiem! Czym konkretnie jest „wybór modelu” i kiedy konkretnie BIC wybiera bardziej „ogólny” model niż AIC?

Jeśli mówimy o wyborze zmiennych, to BIC musi z pewnością zawsze wybierać model z najmniejszą liczbą zmiennych, prawda? Termin w BIC zawsze będzie karać dodawane zmienne bardziej niż termin w AIC. Ale czy nie jest to nieuzasadnione, gdy „ cel BIC jest bardziej ogólnym modelem niż model docelowy dla AIC ”? $2ln(N)k$ $2k$

EDYCJA :

Z dyskusji w komentarzach w Czy jest jakiś powód, aby preferować AIC lub BIC nad drugim? widzimy krótką dyskusję między @Michael Chernick i @ user13273 w komentarzach, co prowadzi mnie do przekonania, że nie jest to wcale takie trywialne:

Myślę, że właściwsze jest nazywanie tej dyskusji „selekcją funkcji” lub selekcją „zmiennych towarzyszących”. Dla mnie wybór modelu jest znacznie szerszy i obejmuje specyfikację rozkładu błędów, formę funkcji łącza i formę zmiennych towarzyszących. Kiedy mówimy o AIC / BIC, zwykle znajdujemy się w sytuacji, w której wszystkie aspekty budowy modelu są ustalone, z wyjątkiem wyboru zmiennych towarzyszących. - user13273, 13 sierpnia o 21:17

Decyzja o określonych współzmiennych, które należy uwzględnić w modelu, często wiąże się z terminem wyboru modelu i istnieje wiele książek z wyborem modelu w tytule, które decydują przede wszystkim o tym, jakie współzmienne / parametry modelu należy uwzględnić w modelu. - Michael Chernick 24 sierpnia o godz. 14:44

— Erosennin
źródło

Dobre pytanie! Przynajmniej część rozdzielczości polega na rozróżnieniu „celu” BIC w terminologii tego artykułu - prawdziwego modelu, który wybierze przy bardzo dużej wielkości próbki - i modelu, który wybierze z określoną próbką rozmiar. Nie ma zatem sprzeczności, gdy rozważa się zagnieżdżoną sekwencję modeli o rosnącej liczbie „nie”. parametry, mówiąc, że celem BIC jest model z 9 parametrami, mimo że przy umiarkowanej wielkości próbki BIC wybiera model z 4 parametrami, a AIC ten z 6. parametrami

— Scortchi - Przywróć Monikę

@Scortchi: Dobry przykład, ale czy koncepcja modelu docelowego nie jest całkowicie zbędna, gdy mówimy o modelach zagnieżdżonych? Jeśli kontekstem jest zestaw modeli zagnieżdżonych (mówimy o wyborze zmiennych): BIC może mieć bardziej złożony model docelowy , ale nigdy nie wybierze bardziej złożonego modelu niż AIC. W każdym innym kontekście (mówimy o wyborze modelu) (z dużą wielkością próby) artykuł twierdzi, że BIC wybierze bardziej złożony („ogólny”) model docelowy niż AIC. Jak to się dzieje konkretnie, wciąż nie jest dla mnie jasne.

— Erosennin,

@Erosennin, czy kiedykolwiek udało ci się znaleźć odpowiedź na to twoje ogólne pytanie?

— zipzapboing

Czasami modelerzy dzielą selekcję zmiennych na odrębny etap rozwoju modelu. Na przykład najpierw dokonają analizy eksploracyjnej, zbadają literaturę akademicką i praktyki branżowe, a następnie opracują listę zmiennych kandydujących. Nazwaliby ten wybór zmiennej krokowej .

Następnie uruchomili kilka różnych specyfikacji z wieloma różnymi kombinacjami zmiennych, takich jak model OLS: gdzie oznacza zmienną w modelu . Wybierają najlepszy model ze wszystkich modeli ręcznie lub w trybie automatycznym. Ludzie ci nazwaliby wybór modelu drugiego etapu .

y_{i} = \sum_{j_{m}} X_{i j_{m}} β_{j_{m}} + ε_{i},

$y_i=\sum_{j_m} X_{ij_m}\beta_{j_m}+\varepsilon_i,$

j_{m}

$j_m$

j

$j$

m

$m$

m

$m$

Jest to podobne do tego, jak w uczeniu maszynowym ludzie mówią o inżynierii cech , kiedy wymyślają zmienne. Podłączasz funkcje do LASSO lub podobnych struktur, w których budujesz model przy użyciu tych funkcji (zmiennych). W tym kontekście sensowne jest rozdzielenie wyboru zmiennych na odrębny krok, ponieważ pozwalasz algorytmowi wybrać odpowiednie współczynniki dla zmiennych i nie eliminujesz żadnych zmiennych. Twoja ocena (w odniesieniu do której zmiennej wchodzi do modelu) jest izolowana w kroku wyboru zmiennej, a następnie reszta zależy od algorytmu dopasowania.

W kontekście cytowanego dokumentu wszystko to nie ma znaczenia. Papier używa BIC lub AIC do wyboru między różnymi specyfikacjami modelu. W tym przypadku nie ma znaczenia, czy wybór zmiennej był osobnym krokiem. Liczy się tylko to, które zmienne są w konkretnej specyfikacji modelu , a następnie spojrzeć na ich BIC / AIC, aby wybrać najlepszy. Uwzględniają wielkości próbek i liczbę zmiennych. $m$

— Aksakal
źródło