CHAID vs CRT (lub CART)


23

Korzystam z klasyfikacji drzewa decyzyjnego za pomocą SPSS na zestawie danych z około 20 predyktorami (kategorycznie z kilkoma kategoriami). CHAID (chi-kwadrat automatyczne wykrywanie interakcji) i CRT / CART (drzewa klasyfikacji i regresji) dają mi różne drzewa. Czy ktoś może wyjaśnić względne zalety CHAID vs CRT? Jakie są konsekwencje korzystania z jednej metody nad drugą?

Odpowiedzi:


23

Wymienię niektóre nieruchomości, a następnie przedstawię moją ocenę tego, co jest warte:

  • CHAID domyślnie używa podziału na wiele dróg (podziały na wiele sposobów oznaczają, że bieżący węzeł jest podzielony na więcej niż dwa węzły). Może to być lub nie być pożądane (może prowadzić do lepszych segmentów lub łatwiejszej interpretacji). To, co zdecydowanie robi, to jednak rozrzedzenie wielkości próby w węzłach, co prowadzi do mniej głębokich drzew. W przypadku użycia do celów segmentacji może się to odbić szybko, gdy CHAID potrzebuje dużych próbek do prawidłowego działania. CART domyślnie wykonuje podziały binarne (każdy węzeł jest podzielony na dwa węzły potomne).
  • CHAID przeznaczony jest do pracy z celowymi / dyskretnymi celami (XAID dotyczył regresji, ale być może zostały połączone od tego czasu). KOSZYK zdecydowanie może przeprowadzić regresję i klasyfikację.
  • CHAID stosuje pomysł przycinania . Węzeł jest dzielony tylko wtedy, gdy spełnione jest kryterium istotności. Jest to związane z powyższym problemem polegającym na potrzebie dużych rozmiarów próbek, ponieważ test Chi-Square ma tylko niewielką moc w małych próbkach (co skutecznie zmniejsza się jeszcze bardziej dzięki korekcji Bonferroniego w przypadku testów wielokrotnych). Z drugiej strony, CART wyrasta z dużego drzewa, a następnie przycina je z powrotem do mniejszej wersji.
  • W ten sposób CHAID od samego początku stara się zapobiegać przeuczeniu (tylko podział jest znaczący, a CART może łatwo się przeregulować, chyba że drzewo zostanie ponownie przycięte). Z drugiej strony pozwala to CART działać lepiej niż CHAID w próbkach wejściowych i wyjściowych (dla danej kombinacji parametrów strojenia).
  • Najważniejsza różnica moim zdaniem polega na tym, że wybór zmiennej podziału i wybór punktu podziału w CHAID jest mniej mocno zakłócany, jak w CART . Jest to w dużej mierze nieistotne, gdy drzewa są używane do przewidywania, ale jest ważnym zagadnieniem, gdy drzewa są używane do interpretacji: Drzewo, które ma te dwie części algorytmu bardzo skomplikowane, mówi się, że jest „stronnicze w wyborze zmiennych” (niefortunna nazwa) . Oznacza to, że wybór zmiennych podzielonych preferuje zmienne z wieloma możliwymi podziałami (np. Predyktory metryczne). W tym sensie KOSZYK jest wysoce „stronniczy”, a CHAID wcale nie.
  • W przypadku podziałów zastępczych CART wie, jak radzić sobie z brakującymi wartościami (podziały zastępcze oznaczają, że w przypadku brakujących wartości (NA) dla zmiennych predykcyjnych algorytm wykorzystuje inne zmienne predykcyjne, które nie są tak „dobre” jak główna zmienna podziału, ale naśladują podziały wytworzone przez pierwotną wartość rozłupnik). CHAID nie ma czegoś takiego.

Dlatego w zależności od tego, czego potrzebujesz, sugeruję użycie CHAID, jeśli próbka jest pewnej wielkości, a aspekty interpretacji są ważniejsze. Ponadto, jeśli pożądane są podziały wielostronne lub mniejsze drzewa, CHAID jest lepszy. Z drugiej strony, CART jest dobrze działającą maszyną do przewidywania, więc jeśli przewidywanie jest twoim celem, wybrałbym CART.


1
(+1). Niezły przegląd. Czy mógłbyś wyjaśnić, co to są „podziały wielodrogowe” i „podziały zastępcze”? Czy podziały wielościeżkowe są podzielone, jeśli nie są dychotomiczne?
COOLSerdash,

1
@Momo: Bardzo dziękuję za zaktualizowaną odpowiedź. Jeśli chodzi o podziały wielostronne, znalazłem następujące interesujące stwierdzenie Hastie i in. (2013) Elementy uczenia statystycznego : „[...] Chociaż to [podziały wielostronne] mogą czasem być przydatne, nie jest to dobra ogólna strategia. [...] Ponieważ podziały wielostronne można osiągnąć za pomocą szeregu plików binarnych są podzielone, te ostatnie są preferowane ”. Zastanawiam się, czy jest to tak jednoznaczne, jak twierdzą (nie mam dużego doświadczenia w uczeniu maszynowym), ale z drugiej strony ich książka jest uważana za odniesienie.
COOLSerdash,

Tak, seria podziałów binarnych może być taka sama jak podziałów wielościeżkowych. Mogą być również inne. Zwykle zgadzam się z tym stwierdzeniem. Inną rzeczą, na którą należy zwrócić uwagę, jest to, że szukanie punktów podziału z wyczerpującym wyszukiwaniem jest algorytmicznie prostsze i szybsze dla binarnych podziałów danego węzła.
Momo,

Bardzo kompletna odpowiedź. Użyłem CHAID w powtórce z ponad 100 000 baz danych. Na tym poziomie klasyfikacja jest bardzo dokładna, ale polecam spróbować kilka razy z różną liczbą partycji i mniej głębokimi poziomami drzewa (oprogramowanie SPSS pozwala wcześniej określić te parametry). Wynika to z faktu, że CHAID generuje drzewa klasyfikacji z kilkoma grupami (multisplit) i znacznie gorzej, jeśli baza danych jest duża. Ostatnie drzewo byłoby ogromne. Na koniec nie zapomnij użyć „kontroli wewnętrznej” przykładowego podziału bazy danych. Zobacz także Podręcznik drzewa klasyfikacji SPSS dostępny na goo
user35523

Co z QUEST?
Madhu Sareen,

8

Wszystkie metody z jednym drzewem wymagają oszałamiającej liczby wielu porównań, które powodują dużą niestabilność wyniku. Dlatego, aby osiągnąć zadowalającą dyskryminację predykcyjną, niezbędna jest jakaś forma uśredniania drzew (workowanie, wzmacnianie, losowe lasy) (z wyjątkiem utraty drzew przewagi - interpretowalność). Prostota pojedynczych drzew jest w dużej mierze iluzją. Są proste, ponieważ mylą się w tym sensie, że szkolenie drzewa do wielu dużych podzbiorów danych ujawni wielką niezgodę między strukturami drzew.

Nie spojrzałem na żadną niedawną metodologię CHAID, ale CHAID w swoim pierwotnym wcieleniu był świetnym ćwiczeniem w zakresie interpretacji danych.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.