- Jakie informacje są tracone podczas dychotomizacji zmiennych?
- W jaki sposób dychotomizacja pomaga w analizach?
Odpowiedzi:
Jakie informacje są tracone: To zależy od zmiennej. Ogólnie, poprzez dychotomizację, zapewniasz, że istnieje prosta linia efektu między jedną zmienną a drugą. Rozważmy na przykład ciągłą miarę narażenia na zanieczyszczenie w badaniu nad rakiem. Jeśli podzielisz go na „High” i „Low”, zapewnisz, że są to jedyne dwie ważne wartości. Ryzyko raka jest wysokie, a jedno jest niskie. Ale co, jeśli ryzyko rośnie przez jakiś czas, a następnie spłaszcza się, a następnie ponownie rośnie, zanim w końcu osiągnie wysokie wartości? Wszystko to przepadło.
Co zyskujesz: to łatwiejsze. Zmienne dychotomiczne są często znacznie łatwiejsze do opanowania statystycznego. Istnieją powody, aby to zrobić - jeśli zmienna ciągła wpada dwóch wyraźnych grup w każdym razie , ale unikają dichotomizing chyba jego naturalnej postaci zmiennej w pierwszej kolejności. Często przydaje się również, jeśli twoje pole i tak dychotomizuje rzeczy, aby mieć dychotomizowaną postać zmiennej. Na przykład wielu uważa liczbę komórek CD4 mniejszą niż 400 za krytyczny próg dla HIV. W związku z tym często miałbym zmienną 0/1 dla Above / Poniżej 400, chociaż zachowałbym również zmienną zliczania CD4. Pomaga to w połączeniu badań z innymi.
Nie będę się trochę zgadzać z Peterem. Podczas gdy dzielenie zmiennej ciągłej na kategorie jest często o wiele bardziej sensowne niż prymitywna dychotomizacja, raczej przeciwstawiam się kwantyzacji. Takie kategoryzacje bardzo trudno jest podać sensowne interpretacje. Myślę, że twoim pierwszym krokiem powinno być sprawdzenie, czy istnieje dobrze poparta biologicznie lub klinicznie kategoryzacja, której można użyć, i tylko wtedy, gdy te opcje zostaną wyczerpane, powinieneś użyć kwantyli.
Dychotymizacja dodaje magicznego myślenia do analizy danych. To bardzo rzadko dobry pomysł.
Oto artykuł Roystona, Altmana i Sauerbrei na temat niektórych powodów, dla których jest to zły pomysł.
Moje własne myśli: jeśli dychotomizujesz zmienną zależną, powiedzmy, masę urodzeniową przy 2,5 kg (dzieje się to cały czas), wówczas leczysz dzieci urodzone przy 2,49 kg, tak jak te urodzone przy 1,5 kg, i dzieci urodzone przy 2,51 kg, podobnie jak ci, którzy mają 3,5 kg. To nie ma sensu.
Lepszą alternatywą jest często regresja kwantylowa. Ostatnio napisałem o tym dla NESUG. Ten papier jest tutaj
Jedynym wyjątkiem od powyższego jest fakt, że kategorie są motywowane merytorycznie; na przykład, jeśli pracujesz z zachowaniem podczas jazdy, rozsądne będzie kategoryzowanie na podstawie ustawowego wieku prowadzenia pojazdu.
Podobały mi się odpowiedzi @ Epigrad i @ Peter. Chciałem tylko dodać, że zmienna przedziału binowania do zmiennej binarnej sprawia, że (potencjalnie) zmienna metryczna jest po prostu porządkowa. W przypadku zmiennej binarnej niewłaściwe jest obliczanie średniej lub wariancji (pomimo tego, że niektórzy to robią) i, jak zauważyłem gdzie indziej , niektóre analizy wielowymiarowe stają się teoretycznie lub logicznie niestosowne. Na przykład myślę, że niewłaściwe jest stosowanie hierarchicznego grupowania centroid / Ward lub analizy czynnikowej ze zmiennymi binarnymi.
Klienci badania często zmuszają nas do dychotomizacji zmiennych na wyjściu, ponieważ myślenie w kategoriach kilku klas zamiast jednej ciągłej cechy jest prostsze, informacja wydaje się mniej mglista i (fałszywie) bardziej nieporęczna.
Istnieją jednak przypadki, w których dychotomizacja może być uzasadniona. Na przykład, gdy występuje silna bimodalność lub gdy analiza (np. MAMBAC lub inna) wykazuje obecność 2 ukrytych klas.