Czy ktoś może podać jasną listę różnic między regresją logarytmiczno-liniową a regresją logistyczną? Rozumiem, że ten pierwszy jest prostym modelem regresji liniowej, ale nie jestem pewien, kiedy należy go użyć.
Czy ktoś może podać jasną listę różnic między regresją logarytmiczno-liniową a regresją logistyczną? Rozumiem, że ten pierwszy jest prostym modelem regresji liniowej, ale nie jestem pewien, kiedy należy go użyć.
Odpowiedzi:
Nazwa jest trochę myląca. Modele logarytmiczno-liniowe były tradycyjnie wykorzystywane do analizy danych w formacie tabeli awaryjnej. Chociaż „zliczanie danych” niekoniecznie musi być zgodne z rozkładem Poissona, model logarytmiczno-liniowy jest w rzeczywistości tylko modelem regresji Poissona. Stąd nazwa „log” (modele regresji Poissona zawierają funkcję „log”).
Mimo to możliwe jest uzyskanie równoważnego wnioskowania na temat powiązań między zmiennymi kategorycznymi za pomocą regresji logistycznej i regresji Poissona. Po prostu w modelu Poissona zmienne wynikowe są traktowane jak zmienne towarzyszące. Co ciekawe, możesz skonfigurować niektóre modele, które pożyczają informacje między grupami w sposób podobny do proporcjonalnego modelu szans, ale nie jest to dobrze zrozumiane i rzadko stosowane.
Przykłady uzyskania równoważnego wnioskowania w modelach regresji logistycznej i regresji Poissona za pomocą R zilustrowane poniżej:
y <- c(0, 1, 0, 1)
x <- c(0, 0, 1, 1)
w <- c(10, 20, 30, 40)
## odds ratio for relationship between x and y from logistic regression
glm(y ~ x, family=binomial, weights=w)
## the odds ratio is the same interaction parameter between contingency table frequencies
glm(w ~ y * x, family=poisson)
Nie sądzę, że nazwałbym którykolwiek z nich „prostym modelem regresji liniowej”. Chociaż możliwe jest użycie dziennika lub transformacji logit jako funkcji łącza dla wielu różnych modeli, zwykle rozumie się, że odnoszą się one do konkretnych modeli. Na przykład „regresja logistyczna” jest rozumiana jako uogólniony model liniowy (GLiM) w sytuacjach, w których zmienna odpowiedzi jest dystrybuowana jako dwumianowa . Ponadto „logarytmiczna regresja liniowa” jest zwykle rozumiana jako Poissona GLiM stosowanego do wielostronnych tabel kontyngencji. Innymi słowy, poza faktem, że oba są modelami regresji / GLiM, nie uważam ich za koniecznie bardzo podobne (istnieją pewne powiązania między nimi, jak wskazuje @AdamO, ale typowe zastosowania są dość różne). Największą różnicą byłoby to, że regresja logistyczna zakłada, że odpowiedź jest dystrybuowana jako dwumianowa, a regresja log-liniowa zakłada, że odpowiedź jest dystrybuowana jako Poissona . W rzeczywistości regresja logarytmiczno-liniowa różni się raczej od większości modeli regresji tym, że zmienna odpowiedzi nie jest tak naprawdę jedną z twoich zmiennych (w zwykłym znaczeniu), ale raczej zbiorem częstotliwości powiązanych z kombinacjami twoich zmiennych w wielostronnej tabeli awaryjnej.