Załóżmy, że zbudowałem model predykcyjny dla wystąpienia określonej choroby w jednym zestawie danych (zestaw danych budowania modelu) i teraz chcę sprawdzić, jak dobrze model działa w nowym zestawie danych (zestaw danych sprawdzania poprawności). Dla modelu zbudowanego z regresją logistyczną obliczałbym przewidywane prawdopodobieństwo dla każdej osoby w zbiorze danych sprawdzania poprawności na podstawie współczynników modelu uzyskanych z zestawu danych budowania modelu, a następnie, po podzieleniu tych prawdopodobieństw na pewną wartość odcięcia, mogę zbudować tabelę 2x2 co pozwala mi obliczyć prawdziwą stopę dodatnią (czułość) i prawdziwą stopę ujemną (specyficzność). Co więcej, mogę skonstruować całą krzywą ROC, zmieniając wartość odcięcia, a następnie uzyskać AUC dla wykresu ROC.
Załóżmy teraz, że mam dane o przetrwaniu. Użyłem więc proporcjonalnego modelu zagrożeń Coxa w zestawie danych budynku modelu i teraz chcę sprawdzić, jak dobrze model działa w zestawie danych sprawdzania poprawności. Ponieważ ryzyko podstawowe nie jest funkcją parametryczną w modelach Coxa, nie widzę, w jaki sposób mogę uzyskać przewidywane prawdopodobieństwo przeżycia dla każdej osoby w zbiorze danych sprawdzania poprawności na podstawie współczynników modelu uzyskanych w zbiorze danych modelu. Więc jak mogę przejść do sprawdzenia, jak dobrze model działa w zestawie danych sprawdzania poprawności? Czy istnieją ustalone metody, aby to zrobić? A jeśli tak, czy są one zaimplementowane w jakimkolwiek oprogramowaniu? Z góry dziękuję za wszelkie sugestie!