Jak wybierać zmienne w modelu regresji?

Tradycyjne podejście do wyboru zmiennych polega na znalezieniu zmiennych, które najbardziej przyczyniają się do przewidywania nowej odpowiedzi. Ostatnio dowiedziałem się o alternatywie. W modelowaniu zmiennych, które określają efekt leczenia - jak na przykład w badaniu klinicznym farmaceutyka - mówi się, że zmienna oddziałuje jakościowoz leczeniem, jeśli pozostawiając inne rzeczy naprawione, zmiana tej zmiennej może spowodować zmianę, w której leczenie jest najbardziej skuteczne. Zmienne te nie zawsze są silnymi predyktorami efektu, ale mogą być ważne dla lekarza przy podejmowaniu decyzji o leczeniu poszczególnych pacjentów. W swojej rozprawie doktorskiej Lacey Gunter opracowała metodę selekcji tych zmiennych oddziałujących jakościowo, których można pominąć w algorytmach opierających selekcję na predykcji. Ostatnio współpracowałem z nią nad rozszerzeniem tych metod na inne modele, w tym na regresję logistyczną i modele regresji proporcjonalnej hazardu Coxa.

Mam dwa pytania:

Co sądzisz o wartości tych nowych metod?
Jakie podejście preferujesz w przypadku tradycyjnych metod? Kryteria takie jak AIC, BIC, Mallows Cp, F testy do wprowadzania lub upuszczania zmiennych w krokach, do przodu i do tyłu ...

Pierwszy artykuł na ten temat ukazał się w Gunter, L., Zhu, J i Murphy, SA (2009). Zmienny wybór interakcji jakościowych . Metodologia statystyczna doi: 10, 1016 / j.stamet.2009.05.003.

Kolejny artykuł ukazał się w Gunter, L., Zhu, J. i Murphy, SA (2011). Zmienny wybór interakcji jakościowych w spersonalizowanej medycynie przy jednoczesnym kontrolowaniu rodzinnego poziomu błędu . Journal of Biopharmaceutical Statistics 21, 1063-1078.

Kolejny ukazał się w specjalnym numerze na temat selekcji zmiennych Gunter, L., Chernick, MR i Sun, J. (2011). Prosty sposób, zmienny wybór regresję w odniesieniu do wyboru leczenia . Pakistan Journal of Statistics and Operations Research 7: 363-380.

Artykuły można znaleźć na stronach czasopism. Być może będziesz musiał kupić ten artykuł. Mogę mieć pliki pdf dla tych artykułów. Lacey i ja właśnie ukończyliśmy monografię na ten temat, która zostanie opublikowana jako SpringerBrief jeszcze w tym roku.

regression feature-selection

— Michael R. Chernick
źródło

Może nie podążam - jeśli istnieje a priori powód, by podejrzewać modyfikację efektu, to czym różnią się te nowe metody, na przykład od włączenia warunków interakcji na liście „kandydujących” zmiennych do wyboru modelu?

— Makro

(1) Wydaje się, że jedna lub więcej linii zaginęło w tym pytaniu. Myślę, że może to być kontynuowane „krok po kroku, do przodu i do tyłu, ...” (2) Identyfikacja modelu i wybór zmiennych zostały tutaj obszernie omówione. Np. Wyszukiwanie + modelu + zmiennej + selekcji przedstawia w tym momencie 145 wątków. Zawężenie wyszukiwania prawdopodobnie odpowie na drugie pytanie. (3) Czy w celu ułatwienia odpowiedzi na pierwsze pytanie możesz podać link lub wyraźne odniesienia do tych badań?

— whuber

Jest to kwestia włączenia zmiennej, która współdziała z leczeniem. Ale jest to interakcja jakościowa, a nie tylko prosta interakcja. Aby oddziaływać, dwie linie nie mogą być równoległe. Aby jakościowo oddziaływać, muszą przekroczyć przedział, w którym zmienna jest zdefiniowana. Chodzi więc o znalezienie zmiennej, która oddziałuje jakościowo. Różni się to od wybierania zmiennych i warunków interakcji, które poprawiają dopasowanie lub przewidywanie.

— Michael R. Chernick

Dzięki za skorzystanie z okazji, Michael. Być może kluczową kwestią do poruszenia jest to, że ta strona nie jest witryną dyskusji, ale raczej stroną z pytaniami i odpowiedziami. Wiąże się to z nieco innymi modalnościami komunikacji. FAQ opisuje to bardziej szczegółowo. Czasami wątki mogą się trochę zgubić, ale okazuje się, że jest to zaskakująco rzadkie, gdy ktoś zyskuje trochę więcej doświadczenia z ogólnym schematem rzeczy. Twoje zdrowie.

— kardynał

Michael, tak, system SE wymaga przyzwyczajenia się i nie jest idealny. Ale to ma sens i jest konsekwentne. Naszym celem jest ciągłe doskonalenie : w przeciwieństwie do serwerów list i tablic ogłoszeń, pytania (i odpowiedzi) można modyfikować; jest to oczekiwane. Ostatecznie chcielibyśmy, aby wątek zaczynał się od jednego, dobrze określonego, kompletnego pytania, które samo w sobie nie ma odniesienia do wątku komentarza; następnie powinien kontynuować jedną lub więcej dobrze napisanych, dobrze przypisanych odpowiedzi kanonicznych. Mając na uwadze ten ideał, sugestie @ kardynała mogą mieć dla ciebie większy sens.

— whuber

Patrz Gelman i Hill, Analiza danych przy użyciu regresji i modelu wielopoziomowego / hierarchicznego str. 69, mają rozdział dotyczący wyboru modelu. Stosuje podejście oparte na pytaniach, które jest całkowicie w porządku, ale w swoim artykule musi uzasadnić, dlaczego uwzględniła to, co zrobiła w modelu. Tak jak powiedziałeś: „Te zmienne nie zawsze są silnymi predyktorami efektu, ale mogą być ważne dla lekarza przy podejmowaniu decyzji o leczeniu poszczególnych pacjentów”. tak długo, jak uzasadnia, dlaczego te predyktory powinny być uwzględnione, jest w porządku. Dla mnie osobiście wolę te metody. Oto moja odpowiedź na 2.
Myślę, że krok po kroku, do przodu i do tyłu to czarne skrzynki. Po uruchomieniu modelu przez wszystkie trzy nie dojdziesz do tych samych predyktorów. Dlatego pod względem wykorzystania nie miałbym jasnej odpowiedzi. AIC lub BIC można używać do porównywania modeli.

— Lauren Goodwin
źródło