Krótko mówiąc : zrób to, co powiedział @untitledprogrammer, wypróbuj oba modele i dokonaj weryfikacji krzyżowej, aby wybrać jeden.
Zarówno drzewa decyzyjne (w zależności od implementacji, np. C4.5), jak i regresja logistyczna powinny dobrze radzić sobie z ciągłymi i kategorycznymi danymi. W przypadku regresji logistycznej należy zmodyfikować kodowane zmienne kategorialne .
Jak wspomniano @untitledprogrammer, trudno jest z góry ustalić, która technika będzie lepsza w oparciu o typy posiadanych funkcji, ciągłe lub inne. To naprawdę zależy od konkretnego problemu i posiadanych danych. (Zobacz twierdzenie o braku darmowego lunchu )
Należy jednak pamiętać, że model regresji logistycznej szuka pojedynczej liniowej granicy decyzji w przestrzeni cech, podczas gdy drzewo decyzyjne zasadniczo dzieli przestrzeń cech na półprzestrzenie przy użyciu liniowych granic decyzji wyrównanych do osi . Efektem netto jest to, że masz nieliniową granicę decyzyjną, prawdopodobnie więcej niż jedną.
Jest to przydatne, gdy punktów danych nie można łatwo oddzielić pojedynczą hiperpłaszczyzną, ale z drugiej strony drzewa decyzyjne są tak elastyczne, że mogą być podatne na nadmierne dopasowanie. Aby temu zaradzić, możesz spróbować przycinania. Regresja logistyczna jest zwykle mniej podatna (ale nie odporna!) Na nadmierne dopasowanie.
x yxy
Musisz więc zadać sobie pytanie:
- jaki rodzaj granicy decyzji ma większy sens w twoim konkretnym problemie?
- jak chcesz zrównoważyć stronniczość i wariancję?
- czy są interakcje między moimi funkcjami?
Oczywiście zawsze dobrym pomysłem jest wypróbowanie obu modeli i przeprowadzenie weryfikacji krzyżowej. Pomoże to dowiedzieć się, który z nich ma większy błąd generalizacji.