Mam na myśli pytanie i odpowiedzi: Jak porównać (prawdopodobieństwo) zdolność predykcyjną modeli opracowanych na podstawie regresji logistycznej? autor: @Clark Chong oraz odpowiedzi / komentarze @Frank Harrell. oraz na pytanie Stopnie swobody w teście Hosmer-Lemeshow i w komentarzach.
Przeczytałem artykuł DW Hosmer, T. Hosmer, S. Le Cessie, S. Lemeshow, „Porównanie testów dopasowania do modelu regresji logistycznej”, Statistics in Medicine, Vol. 16, 965–980 (1997) .
Po przeczytaniu byłem zdezorientowany, ponieważ pytanie, do którego się odniosłem, wyraźnie pyta o „zdolność predykcyjną (prawdopodobieństwa)”, co moim zdaniem nie jest tym samym, do czego mają na celu testy dobroci dopasowania w pracy supra
Jak większość z nas wie, regresja logistyczna zakłada połączenie w kształcie litery S między zmiennymi objaśniającymi a prawdopodobieństwem sukcesu, forma funkcjonalna dla kształtu S jest
Nie udając, że nie ma żadnych niedociągnięć w teście Hosmera – Lemeshowa, uważam, że musimy rozróżnić testy dla zdolności predykcyjnej (a) „(prawdopodobieństwa) ” i (b) „ dobroci dopasowania ”.
Celem twórcy jest sprawdzenie, czy prawdopodobieństwa są dobrze przewidziane, a testy dobroci dopasowania sprawdzają, czy powyższa funkcja w kształcie litery S jest funkcją „właściwą”. Bardziej formalnie:
- testy „testów zdolności predykcyjnych prawdopodobieństwa” mają stwierdzające, że prawdopodobieństwa sukcesu są dobrze przewidywane przez model;
Pierwsza uwaga
Pierwsze pytanie
Drugie Pytanie
Ponadto chcę wskazać wnioski Hosmer i in. glin; (Cytuję z streszczenia):
'Badanie wydajności testów, gdy poprawny model ma człon kwadratowy, ale model zawierający tylko człon liniowy został dopasowany, pokazuje, że chi-kwadrat Pearsona, nieważona suma kwadratów, decyl Hosmera-Lemeshowa ryzyka, wygładzona rezydualna suma kwadratów i test punktowy Stukela mają moc przekraczającą 50 procent, aby wykryć umiarkowane odstępstwa od liniowości, gdy próbka wynosi 100, i mają moc ponad 90 procent dla tych samych alternatyw dla próbek o wielkości 500 Wszystkie testy nie miały mocy, gdy właściwy model oddziaływał między dychotomiczną i ciągłą zmienną towarzyszącą, ale tylko model ciągłej zmiennej towarzyszącej był odpowiedni. Moc wykrywania nieprawidłowo określonego łącza była słaba dla próbek o rozmiarze 100. Dla próbek o rozmiarze 500 Stukel ' Test punktowy miał najlepszą moc, ale przekraczał tylko 50 procent, aby wykryć funkcję łącza asymetrycznego. Moc nieważonego testu sumy kwadratów w celu wykrycia nieprawidłowo określonej funkcji łącza była nieco mniejsza niż test wyniku Stukela ''
Czy mogę wywnioskować z tego, który test ma więcej mocy lub że Hosmer – Lemeshow ma mniej mocy (do wykrywania tych konkretnych anomalii)?
Druga uwaga