Czy przejście od ciągłych danych do jakościowych zawsze jest złe?

Kiedy czytam o tym, jak skonfigurować dane, często spotykam się z tym, że przekształcanie niektórych ciągłych danych w dane kategoryczne nie jest dobrym pomysłem, ponieważ bardzo dobrze możesz wyciągnąć błędne wnioski, jeśli progi są źle określone.

Jednak obecnie mam pewne dane (wartości PSA dla pacjentów z rakiem prostaty), w których myślę, że powszechny konsensus jest taki, że jeśli masz poniżej 4 lat, prawdopodobnie nie masz go, jeśli jesteś powyżej, jesteś zagrożony, a następnie coś w rodzaju powyżej 10 i 20, prawdopodobnie masz. Coś w tym stylu. W takim przypadku, czy nadal byłoby niewłaściwe kategoryzowanie moich ciągłych wartości PSA na grupy, powiedzmy 0-4, 4-10 i> 10? A może faktycznie jest w porządku, ponieważ progi są „dobrze określone”, że tak powiem.

categorical-data continuous-data

— Denver Dang
źródło

To zależy (jak zwykle). Na przykład, jeśli studiujesz, w jaki sposób lekarze będą podejmować decyzje, a oni będą podejmować decyzje na podstawie tych kategorii, wówczas należy zastosować te same kategorie. Jeśli zamiast tego studiujesz biologiczne konsekwencje związane z podwyższonym PSA, najprawdopodobniej w ogóle nie chcesz kategoryzować PSA. Zatem nie ma jednoznacznej odpowiedzi na twoje ogólne pytanie „czy jest w porządku”.

— whuber

Co próbujesz zrobić z danymi? Czy takie granice zwykle nie są związane z tym, co chcesz ustalić, więc wprowadzenie ich ręcznie rodzi pytanie?

— RemcoGerlich

Przygotowuję dane dla modelu regresji logistycznej. Zatem głównym pytaniem jest, czy po prostu użyć ciągłych danych, czy zamiast tego mieć dyskretne dane.

— Denver Dang,

Nie jest dla mnie jasne, czym są „ciągłe” dane. To nie jest coś, co istnieje w rzeczywistości. Nie ma czegoś takiego jak pomiar / statystyka z nieskończoną precyzją.

— JimmyJames

@BillHorvath Tak, nie jestem lekarzem, więc nie jestem całkowicie pewien, jak to ustalono. Jeśli tylko spojrzysz na stronę Wiki, znajdziesz jedno miejsce: „Poziomy PSA między 4 a 10 ng / ml (nanogramów na mililitr) są uważane za podejrzane i należy rozważyć potwierdzenie nieprawidłowego PSA za pomocą powtórnego testu. „ a następnie inne miejsce: „Niskie ryzyko: PSA <10, wynik Gleasona ≤ 6, ORAZ stadium kliniczne ≤ T2a Ryzyko pośrednie: PSA 10-20, wynik Gleasona 7, LUB stadium kliniczne T2b / c Wysokie ryzyko: PSA> 20 , Wynik Gleasona ≥ 8, LUB stadium kliniczne ≥ T3 "

— Denver Dang

Odpowiedzi:

Czy u twoich progów występuje wyraźna nieciągłość?

Załóżmy na przykład, że masz dwóch pacjentów A i B o wartościach 3,9 i 4,1 oraz kolejnych dwóch pacjentów C i D o wartościach 6,7 i 6,9. Czy różnica w prawdopodobieństwie wystąpienia raka między A i B jest znacznie większa niż odpowiadająca różnica między C i D?

Jeśli tak, dyskretyzacja ma sens.

Jeśli nie, wówczas progi mogą mieć sens w zrozumieniu danych, ale nie są „dobrze określone” w sensie statystycznym. Nie dyskrecjonuj. Zamiast tego użyj wyników testu „tak jak jest”, a jeśli podejrzewasz jakąś nieliniowość, użyj splajnów .

Jest to bardzo zalecane.

— Stephan Kolassa
źródło

Ten link na dole jest pełen świetnych punktów. Przyszli czytelnicy tej odpowiedzi powinni to sprawdzić.

— eric_kernfeld

Myślę, że dyskretyzacja nie ma sensu, chyba że nastąpi znaczny skok w wyniku proponowanej przerwy ORAZ, jeśli wynik będzie względnie jednorodny w tych grupach. W przeciwnym razie istnieją lepsze sposoby na podejście do „skoku” w funkcji @ Stephan Kolassa

— LSC

Myślę, że standardowa odpowiedź brzmi: zawsze jest zła, ponieważ tracisz informacje w procesie. Trudno uwierzyć, że jest jakikolwiek przypadek, w którym można coś zyskać, biorąc dane o naturalnych odstępach czasu i czyniąc je kategorycznymi.

— użytkownik54285
źródło

Odpowiednią sytuacją byłoby, gdyby istniała prawdziwa nieciągłość w relacji tego konkretnego x z DV i że w „kategoriach” wynik jest względnie jednorodny.

— LSC,