Jaka jest różnica między regresją liniową a regresją logistyczną?

122

Kiedy z nich skorzystasz?

regression logistic linear-model

— B Seven
źródło

W modelu regresji liniowej zmienna zależna jest uważana za ciągłą, podczas gdy w regresji logistycznej jest kategoryczna, tj. Dyskretna. W aplikacji pierwsza z nich jest używana w ustawieniach regresji, a druga do klasyfikacji binarnej lub klasyfikacji wielu klas (gdzie nazywa się to wielomianową regresją logistyczną).

y

$y$

— Pardis

Chociaż napisane w innym kontekście, może pomóc ci przeczytać moją odpowiedź tutaj: Różnica między modelami logit i probit , która zawiera wiele informacji o tym, co dzieje się w regresji logistycznej, które mogą pomóc ci lepiej je zrozumieć.

— gung

Wszystkie poprzednie odpowiedzi są prawidłowe, ale istnieją powody, dla których możesz faworyzować model regresji liniowej, nawet jeśli wynikiem jest dychotomia. Pisałem o tych przyczynach tutaj: statichorizons.com/linear-vs-logistic

— Paul von Hippel

Odpowiedzi:

111

Regresja liniowa wykorzystuje ogólne równanie liniowe gdzie jest zmienną zależną w sposób ciągły, a zmienne niezależne są zwykle ciągłe (ale mogą być również binarne, np. Gdy model liniowy jest stosowany w t- test) lub inne odrębne domeny. jest terminem określającym wariancję, który nie jest wyjaśniony przez model i zwykle jest nazywany po prostu „błędem”. Poszczególne wartości zależne oznaczone przez można rozwiązać, modyfikując nieco równanie: $Y=b_0+∑(b_i X_i)+\epsilon$ $Y$ $X_i$ $\epsilon$ $Y_j$ $Y_j=b_0 + \sum{(b_i X_{ij})+\epsilon_j}$

Regresja logistyczna to kolejna procedura uogólnionego modelu liniowego (GLM) wykorzystująca tę samą podstawową formułę, ale zamiast ciągłego regresuje się dla prawdopodobieństwa wyniku kategorycznego. W najprostszej postaci oznacza to, że rozważamy tylko jedną zmienną wynikową i dwa stany tej zmiennej - albo 0, albo 1. $Y$

Równanie prawdopodobieństwa wygląda następująco: $Y=1$

P (Y = 1) = \frac{1}{1 + e^{- (b_{0} + \sum (b_{i} X_{i}))}}

$P(Y=1) = {1 \over 1+e^{-(b_0+\sum{(b_iX_i)})}}$

Twoje niezależne zmienne mogą być ciągłe lub binarne. Współczynniki regresji można potęgować wykładniczo, aby uzyskać zmianę szansy na zmianę , tj. i . nazywa się ilorazem , . W języku angielskim można powiedzieć, że szansa wzrasta o współczynnik na zmianę jednostki w . $X_i$ $b_i$ $Y$ $X_i$ $Odds={P(Y=1) \over P(Y=0)}={P(Y=1) \over 1-P(Y=1)}$ ${\Delta Odds}= e^{b_i}$ $\Delta Odds$ $Odds(X_i+1)\over Odds(X_i)$ $Y=1$ $e^{b_i}$ $X_i$

Przykład: jeśli chcesz zobaczyć, jak wskaźnik masy ciała przewiduje cholesterol we krwi (miara ciągła), zastosowałbyś regresję liniową, jak opisano na górze mojej odpowiedzi. Jeśli chcesz zobaczyć, w jaki sposób BMI przewiduje szanse na cukrzycę (diagnoza binarna), zastosowałbyś regresję logistyczną.

— DocBuckets
źródło

Wygląda to na dobrą odpowiedź, ale czy możesz wyjaśnić, co oznacza i - w szczególności - dlaczego umieścisz je w podsumowaniach? (Co zresztą sumuje się?)

ϵ_{i}

$\epsilon_i$

— whuber

Wydaje mi się, że Bill miał zamiar napisać tj. (Łaciński skrót to znaczy), a nie ei

— Michael Chernick

Ale εi w podsumowaniu wykładnika nie powinno tam być. Wygląda na to, że termin hałasu w modelu został tam przypadkowo przeniesiony. Jedyne sumowanie powinno odbywać się nad bis, które reprezentują współczynniki p dla zmiennych towarzyszących p.

— Michael Chernick

W twoim wyrażeniu występuje błąd dla . Powinieneś mieć nie Losowość w modelu regresji logistycznej wynika z faktu, że są to próby bernoulliego, a nie z błędów prawdopodobieństwa sukcesu (w ten sposób napisałeś to).

P (Y = 1)

$P(Y=1)$

P (Y = 1) = \frac{1}{1 + \exp {- X β}},

$P(Y=1) = \frac{1}{1 + \exp \{-X \boldsymbol{\beta} \} },$

P (Y = 1) = \frac{1}{1 + \exp {- (X β + ε)}}

$P(Y=1) = \frac{1}{1 + \exp \{ -(X \boldsymbol{\beta}+\varepsilon) \} }$

— Makro

Regresja logistyczna @samthebrand nie jest sama w sobie binarna. Można go użyć do modelowania danych z odpowiedzią binarną za pomocą prawdopodobieństw w zakresie od 0 do 1. Zamierzam bezwstydnie podeprzeć mój post na blogu, co powinno usunąć twoje zamieszanie.

— Ben

Regresja liniowa służy do ustalenia zależności między zmiennymi zależnymi i niezależnymi, co jest przydatne w oszacowaniu powstałej zmiennej zależnej w przypadku zmiany zmiennej niezależnej. Na przykład:

Stosując regresję liniową stwierdzono, że związek między deszczem (R) a sprzedażą parasoli (U) wynosi - U = 2R + 5000

To równanie mówi, że na każdy 1mm Deszczu jest zapotrzebowanie na 5002 parasoli. Tak więc za pomocą prostej regresji możesz oszacować wartość swojej zmiennej.

Natomiast regresja logistyczna służy do ustalenia prawdopodobieństwa zdarzenia. I to zdarzenie jest rejestrowane w formacie binarnym, tj. 0 lub 1.

Przykład - chcę ustalić, czy klient kupi mój produkt, czy nie. W tym celu uruchomiłbym regresję logistyczną na (odpowiednich) danych, a moją zmienną zależną byłaby zmienna binarna (1 = tak; 0 = nie).

Pod względem reprezentacji graficznej regresja liniowa daje linię liniową jako wynik, gdy wartości zostaną naniesione na wykres. Natomiast regresja logistyczna daje linię w kształcie litery S.

Odniesienie z Mohit Khurana.

— Vijay Ram
źródło

Re: „Regresja liniowa służy do ustalenia zależności między zmiennymi zależnymi i niezależnymi” - dotyczy to również regresji logistycznej - po prostu zmienna zależna jest binarna.

— Makro

Regresja logistyczna służy nie tylko do przewidywania zdarzenia binarnego ( klasy). Można go uogólnić na klasy (wielomianowa regresja logistyczna)

2

$2$

k

$k$

— tgy

Różnice zostały rozwiązane przez DocBuckets i Pardis, ale chcę dodać jeden sposób porównania ich wydajności, o którym nie wspomniano.

Regresję liniową zwykle rozwiązuje się poprzez zminimalizowanie błędu najmniejszych kwadratów modelu w danych, dlatego duże błędy są karane kwadratowo. Regresja logistyczna jest wręcz przeciwna. Użycie funkcji straty logistycznej powoduje karanie dużych błędów do asymptotycznie stałej.

Rozważ regresję liniową na kategorycznych wynikach {0,1}, aby zobaczyć, dlaczego jest to problem. Jeśli twój model przewiduje, że wynik to 38, gdy prawda jest równa 1, nic nie straciłeś. Regresja liniowa próbowałaby zmniejszyć to 38, logistyka nie (tak bardzo).

— J. Abrahamson
źródło

Czy zatem sytuacje / przypadki są karane w logistyce, tj. W jakich przypadkach mielibyśmy słabe dopasowanie?

— MSIS,

Przeciwnie: za każdym razem, gdy większe odchylenia od dopasowania rzeczywiście powodują gorsze wyniki. Na przykład regresja logistyczna jest dobra w utrzymywaniu cię w trafieniu w rzutki, ale nie może sprawić, że bullseye wygląda ładnie. Lub, podobnie, uważa, że prawie chybienie na planszy jest tym samym, co wbicie sąsiada.

— J. Abrahamson,

Świetna odpowiedź. Czy przeprowadzono jakieś badania, które negatywnie wpływają na wydajność modelu? Chodzi mi o to, czy zastosowano regresję liniową do przewidywania odpowiedzi = {0,1} zamiast regresji logistycznej.

— Tagar