Czy drzewa CART wychwytują interakcje między predyktorami?

9

Ten artykuł twierdzi, że w CART, ponieważ podział binarny jest wykonywany na jednej zmiennej towarzyszącej na każdym etapie, wszystkie podziały są ortogonalne, a zatem interakcje między zmiennymi towarzyszącymi nie są brane pod uwagę.

Jednak wiele bardzo poważnych odniesień twierdzi, wręcz przeciwnie, że hierarchiczna struktura drzewa gwarantuje, że interakcje między predyktorami są automatycznie modelowane (np. Ten artykuł i oczywiście Hastie).

Kto ma rację Czy drzewa wyhodowane w CART wychwytują interakcje między zmiennymi wejściowymi?

— Antoine
źródło

Wada argumentu polega na tym, że podziały są dokonywane na podzbiorach zmiennych towarzyszących zdefiniowanych przez podziały wykonane wcześniej.

@mbq, więc nowe podziały są warunkowe w stosunku do poprzednich podziałów ... Rozumiem ... Wydaje mi się, że miałem problem ze zrozumieniem, że „uwarunkowane wcześniejszym podziałem dokonanym na danym predyktorze” było równoważne z „interakcją z tym predyktorem” „...

— Antoine,

12

KOSZYK może przechwytywać efekty interakcji. Efekt interakcji między $X_1$ i $X_2$ występuje, gdy efekt zmiennej objaśniającej $X_1$ na zmienną odpowiedzi $Y$ zależy od poziomu $X_2$ . Dzieje się tak w następującym przykładzie:

wprowadź opis zdjęcia tutaj

Wpływ złych warunków ekonomicznych (nazwij to $X_1$ ) zależy od rodzaju kupowanego budynku ( $X_2$ ). Inwestując w budynek biurowy, złe warunki ekonomiczne zmniejszają przewidywaną wartość inwestycji o 140 000 dolarów. Ale inwestując w budynek mieszkalny, przewidywana wartość inwestycji spada o 20 000 dolarów. Wpływ złych warunków ekonomicznych na przewidywaną wartość inwestycji zależy od rodzaju kupowanej nieruchomości. To jest efekt interakcji.

— TrynnaDoStat
źródło

3

Krótka odpowiedź

KOSZYK potrzebują pomocy w przechwytywaniu interakcji.

Długa odpowiedź

Weź dokładny chciwy algorytm (Chen i Guestrin, 2016):

Średnia na liściu będzie warunkowym oczekiwaniem, ale każdy podział w drodze do liścia jest niezależny od drugiego. Jeśli Cecha A nie ma znaczenia sama w sobie, ale ma znaczenie w interakcji z Cechą B, algorytm nie podzieli się na Cechę A. Bez tego podziału algorytm nie może przewidzieć podziału na Cechę B, niezbędnego do wygenerowania interakcji.

Drzewa mogą wybierać interakcje w najprostszych scenariuszach. Jeśli masz zestaw danych z dwiema funkcjami $x_1, x_2$ i cel $y = XOR(x_1, x_2)$ , algorytm nie ma nic do podzielenia się, ale $x_1$ i $x_2$ , więc dostaniesz cztery liście z $XOR$ oszacowane poprawnie.

Z wieloma funkcjami, regularyzacją i twardym ograniczeniem liczby podziałów ten sam algorytm może pomijać interakcje.

Obejścia

Wyraźne interakcje jako nowe funkcje

Przykład z Zhang („Winning Data Science Competition”, 2015):

Nie chciwe algorytmy drzewiaste

W drugim pytaniu Simone sugeruje algorytmy oparte na spojrzeniu i ukośne drzewa decyzyjne .

Inne podejście do uczenia się

Niektóre metody uczenia się lepiej radzą sobie z interakcjami.

Oto tabela z elementów uczenia statystycznego (wiersz „Zdolność do wyodrębnienia liniowych kombinacji cech”):

— Anton Tarasenko
źródło