Czy współczynniki regresji logistycznej mają znaczenie?


14

Mam problem z klasyfikacją binarną z kilku funkcji. Czy współczynniki (uregulowanej) regresji logistycznej mają znaczenie do interpretacji?

Pomyślałem, że mogą wskazać wielkość wpływu, biorąc pod uwagę, że cechy są wcześniej znormalizowane. Jednak w moim problemie wydaje się, że współczynniki zależą wrażliwie od wybranych funkcji. Nawet znak współczynników zmienia się przy różnych zestawach funkcji wybranych jako dane wejściowe.

Czy warto zbadać wartość współczynników i jaki jest właściwy sposób na znalezienie najbardziej znaczących współczynników i podanie ich znaczenia słowami ? Czy niektóre dopasowane modele i ich znak współczynników są błędne - nawet jeśli w pewnym sensie pasują do danych?

(Najwyższa korelacja, którą mam między cechami, to tylko 0,25, ale to z pewnością odgrywa rolę?)


Czy możesz wyjaśnić, co masz na myśli przez regularyzację? Czy masz termin karny L2, a jeśli tak, to czy szukałeś optymalnego współczynnika, np. Przez walidację krzyżową?
seanv507

Tak, dopuszczam warunki kary L2 na współczynnikach. Szukałem optymalnego współczynnika regularyzacji, ale jeszcze nie korzystałem z wyboru funkcji (jak selekcja do przodu). Jednak sprawia, że ​​czuję się niepewnie, ponieważ współczynniki zależą tak wrażliwie od wyboru funkcji, które uwzględniam. Zakładając, że każda cecha ma pozytywny lub negatywny wpływ klasy dodatniej, jak mogę określić ich siłę i kierunek?
Gerenuk

Odpowiedzi:


14

Współczynniki z wyjścia mają znaczenie, chociaż nie jest to zbyt intuicyjne dla większości ludzi i na pewno nie dla mnie. Dlatego ludzie zmieniają je na iloraz szans. Jednak logarytm ilorazu szans jest współczynnikiem; równoważnie współczynniki wykładnicze są ilorazami szans.

Współczynniki są najbardziej przydatne do podłączania do formuł, które dają przewidywane prawdopodobieństwa bycia na każdym poziomie zmiennej zależnej.

np. w R

library("MASS")
data(menarche)
glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age,
                family=binomial(logit), data=menarche)

summary(glm.out)

Szacunkowy parametr dla wieku to 1,64. Co to znaczy? Cóż, jeśli połączysz go z oszacowaniem parametru dla przechwytywania (-21,24), możesz otrzymać formułę przewidującą prawdopodobieństwo wystąpienia menarche:

P.(M.)=11+mi21,24-1,64zasolmi

mi1,64=5.16


4

Bezpośrednia interpretacja współczynników jest trudna i może wprowadzać w błąd. Nie masz gwarancji, w jaki sposób wagi są przypisywane między zmiennymi.

Szybki przykład, podobny do opisanej sytuacji: Pracowałem nad modelem interakcji użytkowników z witryną. Model ten obejmował dwie zmienne, które reprezentują liczbę „kliknięć” podczas pierwszej godziny i podczas drugiej godziny sesji użytkownika. Te zmienne są ze sobą wysoce skorelowane. Gdyby oba współczynniki dla tej zmiennej były dodatnie, moglibyśmy łatwo wprowadzić się w błąd i wierzyć, że być może wyższy współczynnik wskazuje na „większe” znaczenie. Jednak przez dodanie / usunięcie innegozmienne moglibyśmy z łatwością uzyskać model, w którym pierwsza zmienna miała znak dodatni, a druga ujemny. Powodem, dla którego doszliśmy do wniosku, było to, że ponieważ istniały pewne znaczące (choć niskie) korelacje między większością par dostępnych zmiennych, nie mogliśmy wyciągnąć żadnego bezpiecznego wniosku na temat znaczenia zmiennych przy użyciu współczynników (chętnie uczymy się od społeczności, jeśli ta interpretacja jest poprawna).

Jeśli chcesz uzyskać model, w którym łatwiej jest zinterpretować, jednym pomysłem byłoby użycie Lasso (minimalizacja normy L1). Prowadzi to do rzadkich rozwiązań, w których zmienne są mniej skorelowane ze sobą. Jednak takie podejście nie wybrałoby łatwo obu zmiennych z poprzedniego przykładu - jedna byłaby zerowa.

Jeśli chcesz tylko ocenić ważność określonych zmiennych lub zestawów zmiennych, zaleciłbym bezpośrednie zastosowanie wyboru metody. Takie podejście prowadzi do znacznie bardziej znaczących spostrzeżeń, a nawet globalnych rankingów ważności zmiennych opartych na pewnym kryterium.


0

Współczynniki z pewnością mają znaczenie. W niektórych pakietach oprogramowania model można ukierunkować na dwa sposoby, aby uzyskać jeden z dwóch rodzajów współczynników. Na przykład w programie Stata można użyć polecenia Logistic lub logit; przy zastosowaniu jednego model podaje tradycyjne współczynniki, podczas gdy przy użyciu drugiego model daje iloraz szans.

Może się okazać, że jedno ma dla ciebie znacznie większe znaczenie niż drugie.

O twoje pytanie, że „... współczynniki wydają się zależeć od wrażliwości ...”.

Czy mówisz, że wyniki zależą od zmiennych, które umieścisz w modelu?

Jeśli tak, to jest to faktem podczas analizy regresji. Powodem tego jest to, że analiza regresji analizuje garść liczb i łamie je w sposób zautomatyzowany.

Wyniki zależą od tego, w jaki sposób zmienne są ze sobą powiązane i od tego, które zmienne nie są mierzone. Jest to zarówno sztuka, jak i nauka.

Ponadto, jeśli model ma zbyt wiele predyktorów w porównaniu z wielkością próby, znaki mogą odwracać się w szalony sposób - myślę o tym, mówiąc, że model używa zmiennych, które mają niewielki wpływ na „dostosowanie” swoich oszacowań tych które mają duży efekt (jak małe pokrętło głośności, aby wykonać małe kalibracje). Kiedy tak się dzieje, zwykle nie ufam zmiennym z małymi efektami.

Z drugiej strony może się zdarzyć, że znaki początkowo się zmienią, gdy dodasz nowe predyktory, ponieważ zbliżasz się do przyczynowej prawdy.

Wyobraźmy sobie na przykład, że brandy grenlandzkie mogą być szkodliwe dla zdrowia, ale dochód jest dobry dla zdrowia. Jeśli dochód zostanie pominięty, a bardziej bogaci ludzie piją brandy, wówczas model może „odebrać” wpływ pominiętego dochodu i „powiedzieć”, że alkohol jest dobry dla twojego zdrowia.

Nie ma co do tego wątpliwości, faktem jest, że współczynniki zależą od innych uwzględnionych zmiennych. Aby dowiedzieć się więcej, spójrz na „pominięte zmienne nastawienie” i „fałszywy związek”. Jeśli wcześniej nie spotkałeś się z tymi pomysłami, spróbuj znaleźć wprowadzenie do kursów statystycznych, które spełniają Twoje potrzeby - może to mieć ogromne znaczenie w tworzeniu modeli.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.