Jak wybiera się punkt podziału dla zmiennych ciągłych w drzewach decyzyjnych?

Mam dwa pytania dotyczące drzew decyzyjnych:

Jeśli mamy ciągły atrybut, jak wybrać wartość podziału?

Przykład: Wiek = (20,29,50,40 ....)
Wyobrazić, że mają ciągłą atrybutu , które mają wartości . Jak napisać algorytm, który znajdzie punkt podziału , aby po podzieleniu przez uzyskaliśmy minimalne wzmocnienie dla ? $f$ $R$ $v$ $f$ $v$ $f>v$

classification data decision-trees

$(20, 29, 40, 50)$ $(24.5, 34.5, 45)$

Możesz zaoszczędzić trochę czasu na obliczeniach, sprawdzając tylko punkty podziału leżące między przykładami różnych klas, ponieważ tylko te podziały mogą być optymalne dla uzyskania informacji.

— wykres czasu
źródło

@ timleathart OP oczekuje, że zostanie „nakarmiony” implementacją w R. Zastanawiam się, co OP próbował do tej pory w odniesieniu do implementacji R. A może „pokazać trochę wysiłku”, OP?

— mnm

@ timleathart, ale zwykle dla atrybutu f wybieramy podział v, który daje największy przyrost informacji dla f> v, ale tutaj spójrz na pytanie, które zadali dla minimalnego wzmocnienia.

— WALID BELRHALMIA

@timleathart, Czy możesz wyjaśnić więcej? Muszę znać najlepiej zoptymalizowany sposób identyfikowania takich podziałów i sprawdzania, czy uzyskano informacje. Powiedzmy, że jedna zmienna ma wiele odmian, a druga jest prawie stała. Ile takich podziałów powinno tam być?

— Arpit Sisodia

@timeleathart, rozszerzając twoją odpowiedź, ten podział nie zostanie zoptymalizowany, gdy wartości będą wynosić (20,21,22,23, 45,67,80). czy nie należy tutaj stosować iteracji od min do max? Proszę mnie poprawić, jeśli się mylę w założeniu :)

— Arpit Sisodia

To wyjaśnia moje zamieszanie!

— Jinhua Wang