Wybór modelu: regresja logistyczna

13

Załóżmy, że mamy zmiennych towarzyszących i binarną zmienną wyniku . Niektóre z tych zmiennych towarzyszących są podzielone na kategorie z wieloma poziomami. Inne są ciągłe. Jak wybrałbyś „najlepszy” model? Innymi słowy, jak wybrać współzmienne, które należy uwzględnić w modelu? $n$ $x_1, \dots, x_n$ $y$

Czy modelowałbyś każdą z zmiennych towarzyszących indywidualnie, stosując prostą regresję logistyczną i wybrałeś te ze znacznym powiązaniem? $y$

logistic regression-strategies

— Tomasz
źródło

1

Oprócz mojej odpowiedzi poniżej (lub innych, jeśli się pojawią), poniżej znajduje się kilka dobrych dyskusji na temat wyboru modelu (choć nie koncentruje się na regresji logistycznej per se) stats.stackexchange.com/questions/18214/…

— gung - Przywróć Monikę

2

Zacytuję @jthetzel z ostatniego komentarza na tej stronie: „Dobre pytanie, ale to, które większość tutaj studiowała na semestralnych kursach uniwersyteckich, a niektórzy spędzili karierę studiując”. To tak, jakby usiąść z kimś i powiedzieć: „Czy możesz nauczyć mnie suahili po południu?” Nie to, że Gung nie ma dobrych racji w swojej odpowiedzi. To tylko rozległe terytorium.

— rolando2,

2

Jest to także wątek, który, choć w przypadku bardzo konkretnego pytania, zawiera generalnie kilka porad ode mnie: stats.stackexchange.com/questions/17068/… Poniżej przedstawię swoje przemyślenia.

— Fomite,

Okej, więc myślę, że użyję AIC jako kryterium. Pełny model ma najniższy AIC. Także AIC różnią się od siebie.

— Thomas

10

To prawdopodobnie nie jest dobra rzecz do zrobienia. Najpierw spojrzenie na wszystkie poszczególne zmienne towarzyszące, a następnie zbudowanie modelu z tymi, które są znaczące, jest logicznie równoważne automatycznej procedurze wyszukiwania. Chociaż takie podejście jest intuicyjne, wnioski wynikające z tej procedury są nieprawidłowe (np. Prawdziwe wartości p różnią się od tych zgłaszanych przez oprogramowanie). Problem jest powiększany, im większy jest rozmiar początkowego zestawu zmiennych towarzyszących. Jeśli i tak to zrobisz (i niestety wiele osób tak robi), nie możesz poważnie potraktować wynikowego modelu. Zamiast tego musisz przeprowadzić zupełnie nowe badanie, gromadząc niezależną próbkę i dopasowując poprzedni model, aby go przetestować. Wymaga to jednak wielu zasobów, a ponadto, ponieważ proces jest wadliwy, a poprzedni model prawdopodobnie jest kiepski,marnować dużo zasobów.

Lepszym sposobem jest ocena modeli istotnych dla Ciebie. Następnie użyj kryterium informacyjnego, które karze elastyczność modelu (np. AIC), aby orzec w sprawie tych modeli. W przypadku regresji logistycznej AIC to:

A I C = - 2 \times \ln (likelihood) + 2 k

$AIC = -2\times\ln(\text{likelihood}) + 2k$

gdzie jest liczbą zmiennych towarzyszących zawartych w tym modelu. Chcesz model o najmniejszej wartości dla AIC, wszystkie rzeczy są równe. Jednak nie zawsze jest to takie proste; bądź ostrożny, gdy kilka modeli ma podobne wartości dla AIC, nawet jeśli jeden może być najniższy. $k$

Podaję tutaj pełną formułę AIC, ponieważ różne oprogramowanie generuje różne informacje. Być może będziesz musiał obliczyć to na podstawie prawdopodobieństwa, możesz też otrzymać ostateczny AIC lub cokolwiek pośredniego.

— gung - Przywróć Monikę
źródło

6

Lubię AIC, ale uważaj, że obliczanie AIC na więcej niż 2 wcześniej określonych modelach powoduje problem wielokrotności.

— Frank Harrell,

1

@FrankHarrell nice tip!

— gung - Przywróć Monikę

9

Istnieje wiele sposobów wyboru zmiennych, które mają się znaleźć w modelu regresji, niektóre przyzwoite, niektóre złe, a niektóre okropne. Można po prostu przeglądać publikacje Sander Greenland, z których wiele dotyczy wyboru zmiennych.

Generalnie jednak mam kilka wspólnych „zasad”:

Zautomatyzowane algorytmy, takie jak te dostarczane w pakietach oprogramowania, są prawdopodobnie złym pomysłem.
Korzystanie z modelowych technik diagnostycznych, jak sugeruje Gung, jest dobrym sposobem oceny możliwości wyboru zmiennych
Powinieneś także korzystać z kombinacji wiedzy merytorycznej, poszukiwaczy literatury, ukierunkowanych wykresów acyklicznych itp., Aby poinformować o swoich możliwościach wyboru zmiennych.

— Fomite
źródło

3

Dobrze powiedziane, szczególnie w punktach 1 i 3. Modelowe techniki diagnostyczne mogą spowodować, że nie uda się zachować błędu typu I.

— Frank Harrell,

3

Dobrze umieść @Epigrad. Dodałbym jednak jeden punkt. Zautomatyzowane algorytmy stają się bardzo atrakcyjne, gdy problem staje się duży. W niektórych przypadkach mogą to być jedyny możliwy sposób wyboru modelu. Ludzie analizują teraz ogromne zbiory danych z tysiącami potencjalnych zmiennych i milionami obserwacji. Jaka jest wiedza merytoryczna na temat intuicji 1000-wymiarowej? Przekonasz się, że nawet jeśli zrobisz to ręcznie (tj. Z analitykiem), prawdopodobnie stworzą pewne skróty do wybierania zmiennych. Trudność polega na zakodowaniu tych wyborów.

— prawdopodobieństwo prawdopodobieństwo

1

@probabilityislogic Zgodziłbym się z tym. Szczerze mówiąc, myślę, że tradycyjne techniki są słabo dostosowane do bardzo dużych zbiorów danych, ale alarmuje mnie tendencja do powrotu do bardziej podatnych technik. Jeśli zautomatyzowany algorytm może odchylać zestaw danych za pomocą 10 zmiennych, nie ma powodu, aby nie mógł przesuwać jednego z 10 000. Obecny nacisk na gromadzenie dużych zbiorów danych nad ich analizą w niektórych częściach sprawia, że jestem nieco skryty.

— Fomite

2

@probabilityislogic W głęboko ironiczny zwrot, teraz pracuję z zestawem danych zawierającym ponad 10 z 1000 potencjalnych zmiennych>. <

— Fomite

2

Jak wybrałbyś „najlepszy” model?

Brak wystarczających informacji, aby odpowiedzieć na to pytanie; jeśli chcesz dostać się na efekty przyczynowych dotyczących y trzeba wdrożyć regresji, które odzwierciedlają to, co wiadomo o mylenia. Jeśli chcesz dokonać prognozy, AIC byłoby rozsądnym podejściem.

Te podejścia nie są takie same; kontekst określi, który z (wielu) sposobów wyboru zmiennych będzie bardziej / mniej odpowiedni.

— Gość
źródło