Kiedy używać zanieczyszczenia Gini i kiedy korzystać z pozyskiwania informacji?

Czy ktoś może mi wytłumaczyć, kiedy użyć nieczystości Gini i pozyskiwania informacji do drzew decyzyjnych? Czy możesz podać mi sytuacje / przykłady, kiedy najlepiej korzystać z których?

— Jack Twain
źródło

Powinieneś wypróbować je oba w ramach strojenia parametrów.

Teoretycznie zanieczyszczenie Giniego minimalizuje wynik Briera, podczas gdy entropia / przyrost informacji minimalizuje utratę logów, więc który z interesujących cię robi różnicę. Jednak inne rzeczy, takie jak prawdopodobieństwo, że każde z nich odkryje efekty wielowymiarowe w zachłannym wzroście drzewa, zamiast zostać „rozproszonym” przez jednowymiarowe, które również odgrywają rolę. Tzn. Możesz uzyskać lepszą uogólnienie na podstawie pomiaru zanieczyszczenia, który nie zawsze wybiera „najlepszy” podział.

W praktyce (w kontekście rf, więcej niż koszyk) odkryłem, że entropia działa lepiej dla czystszych zestawów danych o małych wymiarach, w których próbujesz dopasować jak najbardziej złożony sygnał, podczas gdy gini działa lepiej dla hałaśliwych, wysoko wymiarowych takich, w których próbujesz odkryć prosty sygnał spośród wielu hałaśliwych potencjalnych sygnałów. To tylko moje doświadczenie i prawie na pewno nie we wszystkich przypadkach.

Uwaga: początkowo jako komentarz, ale usunięty i przeniesiony do odpowiedzi, aby sformatować rozwinięcie rzeczy.

— Ryan Bressler
źródło