Jaka jest różnica między regresją liniową a regresją logistyczną?
Kiedy z nich skorzystasz?
Jaka jest różnica między regresją liniową a regresją logistyczną?
Kiedy z nich skorzystasz?
Odpowiedzi:
Regresja liniowa wykorzystuje ogólne równanie liniowe gdzie jest zmienną zależną w sposób ciągły, a zmienne niezależne są zwykle ciągłe (ale mogą być również binarne, np. Gdy model liniowy jest stosowany w t- test) lub inne odrębne domeny. jest terminem określającym wariancję, który nie jest wyjaśniony przez model i zwykle jest nazywany po prostu „błędem”. Poszczególne wartości zależne oznaczone przez można rozwiązać, modyfikując nieco równanie:Y X i ϵ Y j Y j = b 0 + ∑ ( b i X i j ) + ϵ j
Regresja logistyczna to kolejna procedura uogólnionego modelu liniowego (GLM) wykorzystująca tę samą podstawową formułę, ale zamiast ciągłego regresuje się dla prawdopodobieństwa wyniku kategorycznego. W najprostszej postaci oznacza to, że rozważamy tylko jedną zmienną wynikową i dwa stany tej zmiennej - albo 0, albo 1.
Równanie prawdopodobieństwa wygląda następująco: P ( Y = 1 ) = 1
Twoje niezależne zmienne mogą być ciągłe lub binarne. Współczynniki regresji można potęgować wykładniczo, aby uzyskać zmianę szansy na zmianę , tj. i . nazywa się ilorazem , . W języku angielskim można powiedzieć, że szansa wzrasta o współczynnik na zmianę jednostki w . Y=1ebiXi
Przykład: jeśli chcesz zobaczyć, jak wskaźnik masy ciała przewiduje cholesterol we krwi (miara ciągła), zastosowałbyś regresję liniową, jak opisano na górze mojej odpowiedzi. Jeśli chcesz zobaczyć, w jaki sposób BMI przewiduje szanse na cukrzycę (diagnoza binarna), zastosowałbyś regresję logistyczną.
Regresja liniowa służy do ustalenia zależności między zmiennymi zależnymi i niezależnymi, co jest przydatne w oszacowaniu powstałej zmiennej zależnej w przypadku zmiany zmiennej niezależnej. Na przykład:
Stosując regresję liniową stwierdzono, że związek między deszczem (R) a sprzedażą parasoli (U) wynosi - U = 2R + 5000
To równanie mówi, że na każdy 1mm Deszczu jest zapotrzebowanie na 5002 parasoli. Tak więc za pomocą prostej regresji możesz oszacować wartość swojej zmiennej.
Natomiast regresja logistyczna służy do ustalenia prawdopodobieństwa zdarzenia. I to zdarzenie jest rejestrowane w formacie binarnym, tj. 0 lub 1.
Przykład - chcę ustalić, czy klient kupi mój produkt, czy nie. W tym celu uruchomiłbym regresję logistyczną na (odpowiednich) danych, a moją zmienną zależną byłaby zmienna binarna (1 = tak; 0 = nie).
Pod względem reprezentacji graficznej regresja liniowa daje linię liniową jako wynik, gdy wartości zostaną naniesione na wykres. Natomiast regresja logistyczna daje linię w kształcie litery S.
Odniesienie z Mohit Khurana.
Różnice zostały rozwiązane przez DocBuckets i Pardis, ale chcę dodać jeden sposób porównania ich wydajności, o którym nie wspomniano.
Regresję liniową zwykle rozwiązuje się poprzez zminimalizowanie błędu najmniejszych kwadratów modelu w danych, dlatego duże błędy są karane kwadratowo. Regresja logistyczna jest wręcz przeciwna. Użycie funkcji straty logistycznej powoduje karanie dużych błędów do asymptotycznie stałej.
Rozważ regresję liniową na kategorycznych wynikach {0,1}, aby zobaczyć, dlaczego jest to problem. Jeśli twój model przewiduje, że wynik to 38, gdy prawda jest równa 1, nic nie straciłeś. Regresja liniowa próbowałaby zmniejszyć to 38, logistyka nie (tak bardzo).