Który pseudo


55

Mam SPSSdane wyjściowe dla modelu regresji logistycznej. Dane wyjściowe zgłaszają dwie miary dopasowania modelu Cox & Snelloraz Nagelkerke.

Więc z reguły, które z tych mierników jako pasujące do modelu?R²

Lub który z tych dopasowanych wskaźników jest zwykle zgłaszany w czasopismach?


Niektóre tło: Regresja próbuje przewidzieć obecność lub nieobecność ptaka (głuszca) na podstawie niektórych zmiennych środowiskowych (np. Stromości, pokrywy roślinnej, ...). Niestety ptak nie pojawiał się zbyt często (35 trafień do 468 chybień), więc regresja działa raczej słabo. Cox & Snell to .09, Nagelkerke, .23.

Przedmiotem jest nauki o środowisku lub ekologia.


3
Doskonała strona pomocy statystyk UCLA ma doskonałą stronę wyjaśniającą różne pseudo- i ich powiązania. R2
gung - Przywróć Monikę

Oto dwa łącza omawiające dokładny algorytm nieparametryczny, który maksymalizuje dokładność modeli regresji logistycznej. Jeśli użyjesz tej metody z danymi, zwiększy to wydajność klasyfikacyjną modelu regresji logistycznej po zastosowaniu do próbki. Przykład 1: onlinelibrary.wiley.com/doi/10.1111/j.1540-5915.1991.tb01912.x/... Przykład 2: epm.sagepub.com/content/54/1/73.abstract
user31256

Odpowiedzi:


74

Normalnie w ogóle nie zgłosiłbym . Hosmer i Lemeshow w swoim podręczniku Applied Logistic Regression (2nd Ed.) Wyjaśniają, dlaczego:R2

Ogólnie rzecz biorąc, [ miary ] opierają się na różnych porównaniach przewidywanych wartości z dopasowanego modelu z wartościami z [modelu podstawowego], modelu bez danych lub tylko modelu przechwytującego, w wyniku czego nie oceniają dobroci -dopasowanie. Uważamy, że prawdziwa miara dopasowania opiera się wyłącznie na porównaniu zaobserwowanych i przewidywanych wartości z dopasowanego modelu.R2

[W p. 164.]

W odniesieniu do różnych wersji ML , statystyki „pseudo ”, wspominają, że nie jest ona „zalecana do rutynowego użytku, ponieważ nie jest tak intuicyjnie łatwa do wyjaśnienia”, ale czują się zobowiązani do jej opisania, ponieważ różne zgłaszają to pakiety oprogramowania.R2R2

Kończą dyskusję pisząc,

... niskie wartości w regresji logistycznej są normą, co stanowi problem przy zgłaszaniu ich wartości odbiorcom przyzwyczajonym do oglądania wartości regresji liniowej. ... Tak więc [argumentując odwołanie do uruchomionych przykładów w tekście] nie zalecamy rutynowego publikowania wartości z wynikami dopasowanych modeli logistycznych. Mogą być jednak pomocne w budowaniu modelu jako dane statystyczne do oceny konkurencyjnych modeli.R2R2

[W p. 167.]

Moje doświadczenia z niektórymi dużymi modelami logistycznymi (100–300 tys. Rekordów, 100–300 zmiennych objaśniających) były dokładnie takie, jak opisują H & L. Z moimi danymi mogłem osiągnąć stosunkowo wysoki , do około 0,40. Odpowiadały one poziomom błędu klasyfikacji między 3% a 15% (fałszywie ujemne i fałszywie dodatnie, zrównoważone, co potwierdzono przy użyciu zestawów danych wstrzymujących 50%). Jak wskazał H & L, musiałem poświęcić dużo czasu na dezorientację klienta (sam wyrafinowany konsultant, który był zaznajomiony z ) na temat i nakłonienie go do skupienia się na tym, co miało znaczenie w analizie (błąd klasyfikacji stawki). Mogę gorąco polecić opisanie wyników twojej analizy bez odniesienia do , która jest bardziej prawdopodobna, aby wprowadzić w błąd niż nie.R2R2R2R2


1
(+1) Początkowo myślałem o rozszerzeniu mojej odpowiedzi (która pojawiła się tuż po twojej), ale zdecydowanie twoja odpowiedź jest samowystarczalna.
chl

dziękuję za to, pomocny dla projektu, nad którym również pracuję - i całkowicie ma sens.
Brandon Bertelsen,

1
@whuber: Mam też skłonność do poprawnego klasyfikowania. stawki, ale widziałem wiele referencji w podręcznikach i witrynach internetowych ostrzegających analityków, aby im nie ufali, i podkreślających, że pseudo-rsq, pomimo jego ograniczeń, jest bardziej sprawiedliwym miernikiem. Często czytam coś, co wydaje się potwierdzone w pewnym stopniu w moich własnych analizach: że po dodaniu danego predyktora pseudo-rsq może wzrosnąć (a inne mierniki wskażą korzyść z dodania), podczas gdy poprawny wskaźnik klasyfikacji nie powiedzie się, i że nie należy ufać temu drugiemu. Zastanawiałeś się nad tym?
rolando2,

4
@ rolando2 Tak, mam. Rodzi to pytanie, o ile pseudo- powinien wzrosnąć, aby uzasadnić włączenie zmiennych. Podejrzewam, że „poprawny współczynnik klasyfikacji” może odnosić się do wskaźnika w próbie , co oczywiście jest stronnicze. Jeśli to prawda, to, co czytasz, porównuje jedynie dwie gorsze statystyki. Z próbki szybkość jest znacznie bardziej przydatny wskaźnik niż pseudo- . R 2R2R2
whuber

1
+1. Ponadto, aby rozwinąć subtelną część swojej odpowiedzi, wspomnij o wskaźnikach błędów klasyfikacji , które są liczbą mnogą i nie należy ich mylić z dokładnością . Istnieje wiele różnych rodzajów obliczeń, które mogą wynikać z macierzy pomieszania - dokładność , współczynnik fałszywie dodatnich , precyzji itp. - i to, na którym nam zależy, zależy od zastosowania. Rozróżnia się także próbkę nieobjętą próbą , która różni się od weryfikacji krzyżowej , ale czasami jest z nią mylona.
Wayne

27

Oba wskaźniki są miarami siły asocjacji (tj. Czy jakikolwiek predyktor jest powiązany z wynikiem, jak w przypadku testu LR) i mogą być stosowane do oceny zdolności predykcyjnej lub wydajności modelu. Pojedynczy predyktor może mieć znaczący wpływ na wynik, ale niekoniecznie może być tak przydatny do przewidywania indywidualnej odpowiedzi , stąd potrzeba oceny wydajności modelu jako całości (wr. Model zerowy). Nagelkerke jest użyteczny, ponieważ ma maksymalną wartość 1,0, jak powiedział Srikant. To tylko znormalizowana wersja obliczona ze współczynnika prawdopodobieństwa,R 2 R 2 LR = 1 - exp ( - LR / n )R2R2RLR2=1exp(LR/n), który ma związek ze statystyką Walda dla ogólnego skojarzenia, jak pierwotnie zaproponowali Cox i Snell. Inne wskaźniki zdolności predykcyjnej to wynik Briera, wskaźnik C (prawdopodobieństwo zgodności lub obszar ROC) lub D Somersa, przy czym dwa ostatnie stanowią lepszą miarę dyskryminacyjnej predykcji.

Jedynymi założeniami regresji logistycznej są liniowość i addytywność (+ niezależność). Chociaż zaproponowano wiele globalnych testów dopasowania (takich jak test Hosmer & Lemeshow , ale patrz mój komentarz do @onestop), generalnie brakuje im mocy. Do oceny dopasowania modelu lepiej jest polegać na kryteriach wizualnych (szacunki warstwowe, wygładzanie nieparametryczne), które pomagają dostrzec lokalne lub globalne odstępstwo między przewidywanymi a obserwowanymi wynikami (np. Nieliniowość lub interakcja), i jest to w dużej mierze szczegółowo opisane w RMS Harrella materiały informacyjne . Na pokrewny temat (testy kalibracyjne), Steyerberg ( kliniczne modele predykcyjneχ2, 2009) wskazuje na to samo podejście do oceny zgodności między zaobserwowanymi wynikami a przewidywanymi prawdopodobieństwami:

Kalibracja wiąże się z dobrością dopasowania, która odnosi się do zdolności modelu do dopasowania do danego zestawu danych. Zazwyczaj nie ma pojedynczego testu dobroci dopasowania, który miałby dobrą moc przeciwko wszelkim rodzajom braku dopasowania modelu prognostycznego. Przykładami braku dopasowania są pominięte nieliniowości, interakcje lub niewłaściwa funkcja powiązania między predyktorem liniowym a wynikiem. Dobroć dopasowania można przetestować za pomocą statystyki . (str. 274)χ2

Sugeruje również, aby polegać na bezwzględnej różnicy między wygładzonymi zaobserwowanymi wynikami a przewidywanymi prawdopodobieństwami albo wizualnie, albo przy tak zwanej statystyce E. Harrella.

Więcej szczegółów można znaleźć w książce Harrella, Regression Modeling Strategies (str. 203-205, 230-244, 247-249). Aby zapoznać się z najnowszą dyskusją, zobacz także

Steyerberg, EW, Vickers, AJ, Cook, NR, Gerds, T, Gonen, M, Obuchowski, N, Pencina, MJ i Kattan, MW (2010). Ocena wydajności modeli predykcyjnych, ramy dla tradycyjnych i nowatorskich miar . Epidemiology , 21 (1) , 128-138.


czy mógłbyś rozwinąć rozróżnienie między „dobrością dopasowania” a siłą powiązania lub zdolnością przewidywania?
Andy W

@ Andy Dzięki za wskazanie tego. Po tym zdaję sobie sprawę, że moje pierwsze zdanie naprawdę nie brzmi dobrze. Zaktualizuję moją odpowiedź, proszę daj mi znać, czy to w porządku z tobą.
chl

Dzięki za aktualizację i wyjaśnia to rozróżnienie.
Andy W

21

Myślałem, że głównym problemem związanym z jakąkolwiek miarą regresji logistycznej jest to, że mamy do czynienia z modelem, który ma znaną wartość szumu. Jest to odmienne od standardowej regresji liniowej, w której poziom hałasu jest zwykle traktowany jako nieznany. Ponieważ możemy napisać funkcję gęstości prawdopodobieństwa glm jako:R2

f(yi|μi,ϕ)=exp(yib(μi)c(μi)ϕ+d(yi,ϕ))

Gdzie Są znanymi funkcjami, a dla funkcji odwrotnego łącza . Jeśli zdefiniujemy zwykłe wartości odchylenia GLM jakob(.), c(.), d(.;.)μi=g1(xiTβ)g1(.)

di2=2ϕ(log[f(yi|μi=yi,ϕ)]log[f(yi|μi=μ^i,ϕ)])=2ϕ[yib(yi)yib(μ^i)c(yi)+c(μ^i)]
Mamy (poprzez iloraz prawdopodobieństwa chi-kwadrat, )χ2=1ϕi=1Ndi2

E(i=1Ndi2)=E(ϕχ2)(Np)ϕ

Gdzie jest wymiarem . Dla regresji logistycznej mamy , co jest znane. Możemy więc wykorzystać to do ustalenia określonego poziomu resztek, który jest „akceptowalny” lub „rozsądny”. Zwykle nie można tego zrobić w przypadku regresji OLS (chyba że masz wcześniejsze informacje o hałasie). Mianowicie, oczekujemy, że każde odchylenie resztkowe wyniesie około . Za dużo i prawdopodobne jest, że w modelu brakuje ważnych efektów (niedopasowanie); za dużo i prawdopodobne jest, że w modelu występują nadmiarowe lub fałszywe efekty (nadmierne dopasowanie). (może to również oznaczać nieprawidłowe określenie modelu).pβϕ=11di21di21

Oznacza to, że problemem dla pseudo- jest to, że nie bierze on pod uwagę, że poziom zmienności dwumianowej jest przewidywalny (pod warunkiem, że struktura błędu dwumianowego nie jest kwestionowana). Dlatego nawet jeśli zakres Nagelkerke wynosi od do , nadal nie jest poprawnie skalowany. Ponadto nie rozumiem, dlaczego są one nazywane pseudo jeśli nie są one równe zwykłemu gdy dopasujesz „GLM” z łączem tożsamości i normalnym błędem. Na przykład równoważny współczynnik R-kwadratowy cox-snell dla błędu normalnego (przy użyciu oszacowania wariancji REML) jest określony przez:R201R2R2

RCS2=1exp(NpNROLS21ROLS2)

Co z pewnością wygląda dziwnie.

Myślę, że lepszą miarą „dobroci dopasowania” jest suma reszt odchylenia, . Jest tak głównie dlatego, że mamy cel do osiągnięcia.χ2



Biorąc pod uwagę, że dwumianowy GLM byłby dopasowany przy użyciu iteracyjnie przeważonej najmniejszych kwadratów, dlaczego ktoś jako miara jakości dopasowania nie zgłaszał R2 R2 dopasowania ważonego najmniejszych kwadratów z ostatniej iteracji IRLS, z którą GLM był odpowiedni? Jak w stats.stackexchange.com/questions/412580/… ?
Tom Wenseleers,

16

Znalazłem krótki artykuł Tue Tjura „Współczynniki determinacji w modelach regresji logistycznej - nowa propozycja: współczynnik dyskryminacji” (2009, The American Statistician ) na temat różnych propozycji współczynnika determinacji w modelach logistycznych dość pouczający. Wykonuje dobrą robotę, podkreślając zalety i wady - i oczywiście oferuje nową definicję. Bardzo polecam (chociaż sam nie mam ulubionego).


1
Dzięki za wskazanie tego papieru; jakoś mi tego brakowało (i pojawiło się, gdy byłem w trakcie dużego projektu regresji logistycznej!).
whuber

3
Dla przypomnienia, ta nowa definicja to , która jest średnią przewidywaną wartością dla odpowiedzi minus średnia przewidywana wartość dla odpowiedzi. Może wynosić od do . Tjur nie odrzucenie Nagelkerke pseudo , lecz sugeruje, że posiada „intuicyjny odwołania” korzystają . 1 0 0 1 R 2 DD=π^¯1π^¯01001R2D
whuber

8

Chciałem też powiedzieć „żadne z nich”, więc głosowałem za odpowiedzią Whubera.

Oprócz krytykowania R ^ 2, Hosmer i Lemeshow zaproponowali alternatywną miarę dobroci dopasowania dla regresji logistycznej, która jest czasami przydatna. Polega to na podzieleniu danych na (powiedzmy) 10 grup o jednakowej wielkości (lub tak blisko, jak to możliwe) przez uporządkowanie przewidywanego prawdopodobieństwa (lub równoważnie predyktora liniowego), a następnie porównanie zaobserwowanej z oczekiwaną liczbą pozytywnych odpowiedzi w każdej grupie i przeprowadzanie testu chi-kwadrat. Ten „test dobroci dopasowania Hosmer-Lemeshow” jest realizowany w większości statystycznych pakietów oprogramowania.


3
Pierwotny test GoF HL nie jest bardzo wydajny, ponieważ zależy od kategoryzacji ciągłej skali predykcyjnej w dowolnej liczbie grup; H & L zaproponowało rozważenie decyla, ale oczywiście zależy to od wielkości próbki, aw niektórych okolicznościach (np. Modele IRT) często ma bardzo mało osób na jednym lub obu końcach skali, tak że granice są nierównomiernie rozmieszczone. Zobacz Porównanie testów zgodności z modelem regresji logistycznej, Stat. Med. 1997 16 (9): 965, j.mp/aV2W6Iχ2
chl

Dzięki chi, to przydatna informacja, chociaż twój link j.mp zabrał mnie do pytania logowania do BiblioInserm. Oto link oparty na doi: dx.doi.org/10.1002/…
onestop

Przepraszam za niepoprawny link ... Wydaje mi się, że pamiętam, że Designpakiet Franka Harrella zawiera alternatywny test H&L 1 df.
chl

3

Wolałbym Nagelkerke, ponieważ ten model pasuje do 1, gdy model pasuje idealnie, dając czytelnikowi poczucie, jak daleko jest twój model od idealnego dopasowania. Cox & Shell nie osiąga 1 dla idealnego dopasowania modelu, dlatego interpretacja wartości 0,09 jest nieco trudniejsza. Zobacz ten adres, aby uzyskać dodatkowe informacje na temat Pseudo RSquared, aby uzyskać wyjaśnienie różnych rodzajów napadów .


8
„Idealne dopasowanie” jest tak dalekie od osiągnięcia w jakiejkolwiek realistycznej regresji logistycznej, że wydaje się niesprawiedliwe stosowanie go jako odniesienia lub normy.
whuber

1
@whuber Prawda, ale można użyć standardu do porównania względnej wydajności dwóch konkurencyjnych modeli. Twoje punkty małej R ^ 2, w swojej odpowiedzi i jej konsekwencje są dobre punkty, ale jeśli mają (np recenzenci żądać go etc), aby korzystać z niektórych form R ^ 2, a następnie Nagelkerke jest korzystne.

1
@ Skridant Tak, wciąż problem recenzentów, którzy chcą wszędzie zobaczyć i korekcję Bonferroniego ...R2
chl

@Srikant, @chl: Cyniczne czytanie tego wątku sugerowałoby wybranie największego R ^ 2 spośród wszystkich raportów oprogramowania ;-).
whuber

2
@chl Oferowanie odpowiedzi zwrotnej recenzentom / klientom jest oczywiście konieczne, ale czasem musimy być również pragmatyczni. Jeśli czytelnicy nie będą źle interpretować niskiej R ^ 2 jako braku odpowiedniej wydajności modelu, problemy podniesione przez @whuber zostaną do pewnego stopnia złagodzone.

3

Pomimo argumentów przeciwko używaniu pseudo-r-kwadratów, niektórzy ludzie z różnych powodów będą chcieli nadal używać ich przynajmniej w określonych momentach. To, co zinternalizowałem z moich odczytów (i przepraszam, że nie mogę w tej chwili podać cytatów), to to

  • jeśli zarówno C&S, jak i Nag. są poniżej .5, C&S będzie lepszym wskaźnikiem;
    jeśli oba są powyżej 0,5, Nag. będzie; a
    jeśli mają ok. 5, punt.

Ponadto formuła, której wyniki często mieszczą się między nimi, wymieniona przez Scotta Menarda w Applied Logistic Regression Analysis (Sage), jest

[-2LL0 - (-2LL1)]/-2LL0.

Jest to oznaczone jako „L” na poniższej tabeli.

wprowadź opis zdjęcia tutaj


Co pokazuje to zdjęcie (co oznacza oś pozioma)? W jaki sposób ostatnia formuła (która wygląda jak wyskalowana statystyka prawdopodobieństwa) różni się dokładnie od Nagelkerke ? R2
chl

Analiza nr: Próbowałem różnych analiz z różnymi zestawami danych. Nie mam pod ręką formuły Nagelkerke, ale założę się, że jest łatwo dostępna.
rolando2,

Paul Allison obejmuje formułę Nagelkerke, która jest regulowana w górę-Cox & Snell formuła, w statisticalhorizons.com/2013/02 . Po przeczytaniu tego bloga i ogólnie w ciągu 2-3 lat, odkąd odbyła się większość tej dyskusji, stałem się bardziej przekonany, że niedocenianie Cox & Snell wyjaśniło wariancję i że lepiej mi uśrednić C&S i wynik Nagelkerke.
rolando2
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.