Kiedy czytam o tym, jak skonfigurować dane, często spotykam się z tym, że przekształcanie niektórych ciągłych danych w dane kategoryczne nie jest dobrym pomysłem, ponieważ bardzo dobrze możesz wyciągnąć błędne wnioski, jeśli progi są źle określone.
Jednak obecnie mam pewne dane (wartości PSA dla pacjentów z rakiem prostaty), w których myślę, że powszechny konsensus jest taki, że jeśli masz poniżej 4 lat, prawdopodobnie nie masz go, jeśli jesteś powyżej, jesteś zagrożony, a następnie coś w rodzaju powyżej 10 i 20, prawdopodobnie masz. Coś w tym stylu. W takim przypadku, czy nadal byłoby niewłaściwe kategoryzowanie moich ciągłych wartości PSA na grupy, powiedzmy 0-4, 4-10 i> 10? A może faktycznie jest w porządku, ponieważ progi są „dobrze określone”, że tak powiem.