Regresja logarytmiczno-liniowa a regresja logistyczna

21

Czy ktoś może podać jasną listę różnic między regresją logarytmiczno-liniową a regresją logistyczną? Rozumiem, że ten pierwszy jest prostym modelem regresji liniowej, ale nie jestem pewien, kiedy należy go użyć.

— użytkownik38133
źródło

19

Nazwa jest trochę myląca. Modele logarytmiczno-liniowe były tradycyjnie wykorzystywane do analizy danych w formacie tabeli awaryjnej. Chociaż „zliczanie danych” niekoniecznie musi być zgodne z rozkładem Poissona, model logarytmiczno-liniowy jest w rzeczywistości tylko modelem regresji Poissona. Stąd nazwa „log” (modele regresji Poissona zawierają funkcję „log”).

$E[Y|X] = a + bX$

Mimo to możliwe jest uzyskanie równoważnego wnioskowania na temat powiązań między zmiennymi kategorycznymi za pomocą regresji logistycznej i regresji Poissona. Po prostu w modelu Poissona zmienne wynikowe są traktowane jak zmienne towarzyszące. Co ciekawe, możesz skonfigurować niektóre modele, które pożyczają informacje między grupami w sposób podobny do proporcjonalnego modelu szans, ale nie jest to dobrze zrozumiane i rzadko stosowane.

Przykłady uzyskania równoważnego wnioskowania w modelach regresji logistycznej i regresji Poissona za pomocą R zilustrowane poniżej:

y <- c(0, 1, 0, 1)
x <- c(0, 0, 1, 1)
w <- c(10, 20, 30, 40)

## odds ratio for relationship between x and y from logistic regression
glm(y ~ x, family=binomial, weights=w)

## the odds ratio is the same interaction parameter between contingency table frequencies
glm(w ~ y * x, family=poisson)

$y$ $x$

— AdamO
źródło

Ponownie, to prawdopodobnie pokazuje mój brak doświadczenia, ale czy byłbyś w stanie podać definicję tabel awaryjnych? Może także pomóc innym, którzy napotkają to pytanie.

— user38133

Tabele nieprzewidziane są (zwykle) tabelami dwuwymiarowymi, które wyliczają wszystkie możliwe odpowiedzi dwóch zmiennych i pokazują częstotliwość obserwacji w komórkach. Na przykład, możesz mieć tabelę awaryjną 2 na 2 pokazującą status palenia (nigdy w porównaniu z obecnym) i raka (płuca ca w porównaniu z brakiem raka), którego użyłbyś do oszacowania związku między paleniem a ryzykiem raka.

— AdamO

15

Nie sądzę, że nazwałbym którykolwiek z nich „prostym modelem regresji liniowej”. Chociaż możliwe jest użycie dziennika lub transformacji logit jako funkcji łącza dla wielu różnych modeli, zwykle rozumie się, że odnoszą się one do konkretnych modeli. Na przykład „regresja logistyczna” jest rozumiana jako uogólniony model liniowy (GLiM) w sytuacjach, w których zmienna odpowiedzi jest dystrybuowana jako dwumianowa . Ponadto „logarytmiczna regresja liniowa” jest zwykle rozumiana jako Poissona GLiM stosowanego do wielostronnych tabel kontyngencji. Innymi słowy, poza faktem, że oba są modelami regresji / GLiM, nie uważam ich za koniecznie bardzo podobne (istnieją pewne powiązania między nimi, jak wskazuje @AdamO, ale typowe zastosowania są dość różne). Największą różnicą byłoby to, że regresja logistyczna zakłada, że odpowiedź jest dystrybuowana jako dwumianowa, a regresja log-liniowa zakłada, że odpowiedź jest dystrybuowana jako Poissona . W rzeczywistości regresja logarytmiczno-liniowa różni się raczej od większości modeli regresji tym, że zmienna odpowiedzi nie jest tak naprawdę jedną z twoich zmiennych (w zwykłym znaczeniu), ale raczej zbiorem częstotliwości powiązanych z kombinacjami twoich zmiennych w wielostronnej tabeli awaryjnej.

— gung - Przywróć Monikę
źródło

Dzięki! Wydaje mi się, że moje naturalne pytanie uzupełniające, które prawdopodobnie pokazuje mój brak doświadczenia, dotyczy tego, jak ustalić, jaki jest właściwy rozkład do modelowania danego problemu. Myślę, że będę musiał zrobić trochę więcej czytania, aby upewnić się, że zawsze mogę dokonać właściwego wyboru.

— user38133

2

Logarytmiczno-liniowy model jest modelem regresji Poissona, który jest stosowany do wieloczynnikowej tabeli kontyngencji. Na przykład, jeśli miałeś dwukierunkową tabelę zdarzeń awaryjnych i zastanawiałeś się, czy wiersze i kolumny są niezależne, przeprowadziłbyś test chi-kwadrat; jeśli miałeś> 2-kierunkową tabelę kontyngencji, możesz użyć modelu logarytmiczno-liniowego. Regresja logistyczna dotyczy sytuacji, w których masz zmienną odpowiedzi i tak jest

{0, 1}

$\{0,\ 1\}$ tylko.

— gung - Przywróć Monikę

0

Aby wyjaśnić, „binarna” regresja logistyczna ma zmienną zależną z dwoma wynikami. Rozumiem, że istnieje również opcja zastosowania „wielomianowej” regresji logistycznej, jeśli zależna zmienna wynikowa ma więcej niż 2 kategorie. Zobacz tutaj .

— M. Phipps
źródło