Wielomianowa regresja logistyczna a regresja binarna logistyczna jeden na jeden

Powiedzmy, że mamy zmienną zależną z kilkoma kategoriami i zestawem zmiennych niezależnych. $Y$

Jakie są zalety wielomianowej regresji logistycznej w porównaniu z zestawem binarnych regresji logistycznych (tj. Schemat jeden do reszty )? Przez zestaw binarnej regresji logistycznej rozumiem, że dla każdej kategorii budujemy osobny binarny model regresji logistycznej z celem = 1, gdy i 0 w przeciwnym razie. $y_{i} \in Y$ $Y=y_{i}$

logistic categorical-data multinomial

— Tomek Tarczyński
źródło

Matematycznie wielomianowy model logit to zestaw binarnych modeli logit, wszystkie w porównaniu z podstawową alternatywą. Ale ponieważ możesz zwinąć ogólne parametry i być może połączyć kilka innych, MNL zawsze będzie co najmniej tak samo wydajny (i prawdopodobnie bardziej). Nie widzę powodu, aby kiedykolwiek używać serii modeli dwumianowych.

— gregmacfarlane

@gmacfarlane: Próbowałem symulować dane, w których MNL byłby lepszy niż seria binarnych regresji logistycznych, ale za każdym razem jakość była taka sama. Porównywałem wykresy wzrostu i po uśrednieniu wyników z kilku symulacji wyglądają prawie tak samo. Może masz pomysł, jak generować dane, aby MNL pokonało binarne regresje logistyczne? Chociaż MNL miał wielką przewagę, jego wyniki można interpretować jako prawdopodobieństwo.

— Tomek Tarczynski

Wielomianowa regresja logistyczna jest rozszerzeniem binarnej regresji logit. Stosuje się go, gdy zmienne zależne badania wynoszą trzy i więcej, natomiast logit binarny stosuje się, gdy zmienne zależne badania wynoszą dwa.

Do czytelnika: polecam zacząć od odpowiedzi @ julieth i śledzić dalej czytając ttnphns '. Myślę, że ta pierwsza odpowiada bardziej bezpośrednio na pierwotne pytanie, ale ta druga dodaje interesującego kontekstu. ttnphns pokazuje również różne funkcje, które są dostępne dla obu w popularnej procedurze oprogramowania, co samo w sobie może stanowić powód do używania jednego nad drugim (patrz oświadczenie gregmacfarlane).

— Ben Ogorek

Odpowiedzi:

Jeśli ma więcej niż dwie kategorie, twoje pytanie o „przewagę” jednej regresji nad drugą jest prawdopodobnie pozbawione sensu, jeśli zamierzasz porównać parametry modeli , ponieważ modele będą się zasadniczo różnić: $Y$

dla każdegobinarnego logistycznejregresji i $\bf log \frac{P(i)}{P(not~i)}=logit_i=linear~combination$ $i$

dla każdegokategorii,stwardnienie logistycznejregresjijest wybranej kategorii odniesienia (). $\bf log \frac{P(i)}{P(r)}=logit_i=linear~combination$ $i$ $r$ $i \ne r$

Jeśli jednak Twoim celem jest jedynie przewidywanie prawdopodobieństwa każdej kategorii każde z tych podejść jest uzasadnione, chociaż mogą one dawać różne szacunki prawdopodobieństwa. Wzór na oszacowanie prawdopodobieństwa jest ogólny: $i$

, gdziesą wszystkimi kategoriami , a jeśliwybrano jako referencyjny, jego $\bf P'(i)= \frac{exp(logit_i)}{exp(logit_i)+exp(logit_j)+\dots+exp(logit_r)}$ $i,j,\dots,r$ $r$ . Tak więc dla logiki binarnej ta sama formuła staje się $\bf exp(logit)=1$ . Logistyka wielomianowa opiera się na (nie zawsze realistycznym) założeniuniezależności nieistotnych alternatyw,podczas gdy szereg binarnych prognoz logistycznych nie. $\bf P'(i)= \frac{exp(logit_i)}{exp(logit_i)+1}$

Osobnym tematem są techniczne różnice między wielomianowymi i binarnymi regresjami logistycznymi w przypadku, gdy jest dychotomiczny . Czy będą jakieś różnice w wynikach? Przez większość czasu przy braku zmiennych towarzyszących wyniki będą takie same, jednak istnieją różnice w algorytmach i opcjach wyjściowych. Pozwólcie, że zacytuję Pomoc SPSS na ten temat w SPSS: $Y$

Modele binarnej regresji logistycznej można dopasować przy użyciu procedury regresji logistycznej lub procedury wielomianowej regresji logistycznej. Każda procedura ma opcje niedostępne w drugiej. Ważnym teoretycznym rozróżnieniem jest to, że procedura regresji logistycznej generuje wszystkie prognozy, wartości rezydualne, statystyki wpływu i testy dobroci dopasowania z wykorzystaniem danych na poziomie poszczególnych przypadków, niezależnie od tego, jak dane są wprowadzane i czy liczba wzorców towarzyszących jest mniejsza niż całkowita liczba przypadków, podczas gdy procedura wielomianowej regresji logistycznej wewnętrznie agreguje przypadki, tworząc subpopulacje o identycznych wzorcach zmiennych dla predyktorów, tworząc prognozy, reszty i testy dobroci dopasowania oparte na tych subpopulacjach.

Regresja logistyczna zapewnia następujące unikalne funkcje:

• Test Hosmera-Lemeshowa na temat dopasowania modelu do modelu

• Analizy krok po kroku

• Kontrastuje w celu zdefiniowania parametryzacji modelu

• Alternatywne punkty cięcia dla klasyfikacji

• Wykresy klasyfikacyjne

• Model dopasowany do jednego zestawu skrzynek do wyciągniętego zestawu skrzynek

• Zapisuje prognozy, wartości resztkowe i statystyki wpływu

Wielomianowa regresja logistyczna zapewnia następujące unikalne funkcje:

• Testy chi-kwadrat Pearsona i dewiacji pod kątem dopasowania modelu

• Specyfikacja subpopulacji do grupowania danych w celu przeprowadzenia testów dopasowania

• Lista zliczeń, przewidywanych zliczeń i wartości resztowych według subpopulacji

• Korekta szacunków wariancji dla nadmiernej dyspersji

• Macierz kowariancji oszacowań parametrów

• Testy liniowych kombinacji parametrów

• Jawna specyfikacja modeli zagnieżdżonych

• Dopasuj 1-1 dopasowanych modeli warunkowej regresji logistycznej z wykorzystaniem zmiennych różnicowych

— ttnphns
źródło

Wiem, że te modele będą różne, ale nie wiem, który z nich jest lepszy w jakiej sytuacji. Zadam pytanie w inny sposób. Jeśli otrzymałeś zadanie: Dla każdej osoby przewidzieć prawdopodobieństwo, że jakaś firma telefonii komórkowej jest faworytem (załóżmy, że każda ma ulubioną firmę telefonii komórkowej). Której z metod byś użył i jakie są zalety tej drugiej?

— Tomek Tarczynski

@Tomek Rozszerzyłem nieco swoją odpowiedź

— ttnphns

Chociaż uważam, że @ julieth's jest najlepszą odpowiedzią na pierwotne pytanie OP, jestem ci winien wprowadzenie do założenia Niepodległości Nieistotnych Alternatyw. Jedno pytanie, które wciąż mam, brzmi: czy osobna logistyka naprawdę sobie z tym poradzi; artykuł w Wikipedii, który powiązałeś z wymienionym probitem i „zagnieżdżonym logitem” jako dopuszczającym naruszenia IIA

— Ben Ogorek

i

$i$

r

$r$

i

$i$

i \neq r

$i \neq r$

Z powodu tytułu zakładam, że „zalety wielokrotnej regresji logistycznej” oznaczają „regresję wielomianową”. Często są zalety, gdy model jest dopasowany jednocześnie. Ta szczególna sytuacja została opisana w Agresti (Categorical Data Analysis, 2002) str. 273. Podsumowując (parafrazując Agresti) oczekujesz, że szacunki ze wspólnego modelu będą inne niż modelu warstwowego. Oddzielne modele logistyczne mają zwykle większe standardowe błędy, chociaż może nie być tak źle, gdy najczęstszym poziomem wyniku jest poziom odniesienia.

— Julieth
źródło

Dzięki! Postaram się znaleźć tę książkę, niestety google.books zapewnia treść tylko do strony 268.

— Tomek Tarczynski

@TomekTarczynski Podsumowałem stosowne informacje z akapitu, więc możesz nie uzyskać więcej informacji związanych z tym pytaniem, patrząc na książkę (chociaż książka jest świetna, więc otrzymasz inne dobre informacje).

— lipiec

Cytat z książki Agresti: „Szacunki osobnego dopasowania różnią się od oszacowań ML dla jednoczesnego dopasowania logów J-1. Są mniej wydajne, mają tendencję do większych błędów standardowych. Jednak Begg i Gray 1984 wykazali, że utrata wydajności jest niewielka, gdy kategoria odpowiedzi o najwyższym rozpowszechnieniu jest wartością wyjściową. ”.

— Franck Dernoncourt