Test dobroci dopasowania w regresji logistycznej; które „dopasowanie” chcemy przetestować?


12

Mam na myśli pytanie i odpowiedzi: Jak porównać (prawdopodobieństwo) zdolność predykcyjną modeli opracowanych na podstawie regresji logistycznej? autor: @Clark Chong oraz odpowiedzi / komentarze @Frank Harrell. oraz na pytanie Stopnie swobody w teście Hosmer-Lemeshowχ2 i w komentarzach.

Przeczytałem artykuł DW Hosmer, T. Hosmer, S. Le Cessie, S. Lemeshow, „Porównanie testów dopasowania do modelu regresji logistycznej”, Statistics in Medicine, Vol. 16, 965–980 (1997) .

Po przeczytaniu byłem zdezorientowany, ponieważ pytanie, do którego się odniosłem, wyraźnie pyta o „zdolność predykcyjną (prawdopodobieństwa)”, co moim zdaniem nie jest tym samym, do czego mają na celu testy dobroci dopasowania w pracy supra

Jak większość z nas wie, regresja logistyczna zakłada połączenie w kształcie litery S między zmiennymi objaśniającymi a prawdopodobieństwem sukcesu, forma funkcjonalna dla kształtu S jest

P(y=1|xi)=11+e(β0+iβixi)

Nie udając, że nie ma żadnych niedociągnięć w teście Hosmera – Lemeshowa, uważam, że musimy rozróżnić testy dla zdolności predykcyjnej (a) „(prawdopodobieństwa) ” i (b) „ dobroci dopasowania ”.

Celem twórcy jest sprawdzenie, czy prawdopodobieństwa są dobrze przewidziane, a testy dobroci dopasowania sprawdzają, czy powyższa funkcja w kształcie litery S jest funkcją „właściwą”. Bardziej formalnie:

  1. testy „testów zdolności predykcyjnych prawdopodobieństwa” mają stwierdzające, że prawdopodobieństwa sukcesu są dobrze przewidywane przez model;H0
  2. H0

H0

Pierwsza uwaga

H0

Pierwsze pytanie

H0

Drugie Pytanie

Ponadto chcę wskazać wnioski Hosmer i in. glin; (Cytuję z streszczenia):

'Badanie wydajności testów, gdy poprawny model ma człon kwadratowy, ale model zawierający tylko człon liniowy został dopasowany, pokazuje, że chi-kwadrat Pearsona, nieważona suma kwadratów, decyl Hosmera-Lemeshowa ryzyka, wygładzona rezydualna suma kwadratów i test punktowy Stukela mają moc przekraczającą 50 procent, aby wykryć umiarkowane odstępstwa od liniowości, gdy próbka wynosi 100, i mają moc ponad 90 procent dla tych samych alternatyw dla próbek o wielkości 500 Wszystkie testy nie miały mocy, gdy właściwy model oddziaływał między dychotomiczną i ciągłą zmienną towarzyszącą, ale tylko model ciągłej zmiennej towarzyszącej był odpowiedni. Moc wykrywania nieprawidłowo określonego łącza była słaba dla próbek o rozmiarze 100. Dla próbek o rozmiarze 500 Stukel ' Test punktowy miał najlepszą moc, ale przekraczał tylko 50 procent, aby wykryć funkcję łącza asymetrycznego. Moc nieważonego testu sumy kwadratów w celu wykrycia nieprawidłowo określonej funkcji łącza była nieco mniejsza niż test wyniku Stukela ''

Czy mogę wywnioskować z tego, który test ma więcej mocy lub że Hosmer – Lemeshow ma mniej mocy (do wykrywania tych konkretnych anomalii)?

Druga uwaga

H1H1

Odpowiedzi:


5

R2

Testy zgodności z zamiarem mają mieć rozsądną moc w stosunku do różnych alternatyw, a nie wysoką moc w stosunku do konkretnej alternatywy; więc ludzie porównujący moc różnych testów mają skłonność do pragmatycznego podejścia do wyboru kilku alternatyw, które są uważane za szczególnie interesujące dla potencjalnych użytkowników (patrz na przykład często cytowany Stephens (1974), „Statystyki EDF pod kątem dopasowania i niektóre porównania ”, JASA, 69 , 347 ). Nie można dojść do wniosku, że jeden test jest skuteczniejszy od drugiego w stosunku do wszystkich możliwych alternatyw, ponieważ jest skuteczniejszy w stosunku do niektórych.


1
W niektórych przypadkach można wykazać, że test jest „jednolicie mocniejszy”, co oznacza, że ​​jest on bardziej wydajny dla wszystkich możliwych alternatyw (por. Twierdzenie Karlin / Rubin). Ale masz rację, że dzieje się tak tylko w wyjątkowych przypadkach, a na pewno nie w ramach testu Hosmera-Lemeshowa.

4
Ogólnie rzecz biorąc, „dobro dopasowanie” kładzie zbyt duży nacisk na IMHO. Lepszą alternatywą jest dopasowanie modelu z przodu. Odbywa się to za pomocą splajnów regresji w celu rozluźnienia założeń liniowości i uwzględnienia interakcji, które miałyby sens.
Frank Harrell,

2
@fcoppens: Dobra uwaga! Testy UMP uzyskuje się tylko przez poważne ograniczenie rozważanych alternatyw do wartości parametru skalarnego, a nawet wtedy nie zawsze. Nawet biorąc pod uwagę, czy test jest niedopuszczalny - istnieje co najmniej jeden inny test, który ma większą moc we wszystkich alternatywach - wymagałby zbytniego ograniczenia alternatyw dla testu GOF ogólnego zastosowania.
Scortchi - Przywróć Monikę
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.