Ile funkcji próbkować przy użyciu losowych lasów

Strona Wikipedii cytująca „Elementy uczenia statystycznego” mówi:

Zazwyczaj w przypadku problemu z klasyfikacją funkcji $p$ Funkcjesą używane w każdym podziale. $\lfloor \sqrt{p}\rfloor$

Rozumiem, że jest to dość dobrze wykształcone przypuszczenie i prawdopodobnie zostało to potwierdzone dowodami empirycznymi, ale czy istnieją inne powody, dla których wybrałby pierwiastek kwadratowy? Czy dzieje się tam zjawisko statystyczne?

Czy to w jakiś sposób pomaga zmniejszyć wariancję błędów?

Czy to samo dotyczy regresji i klasyfikacji?

— Valentin Calomme
źródło

Myślę, że w oryginalnym artykule sugerują użycie ), ale tak czy inaczej, pomysł jest następujący: $\log_2(N +1$

Liczba losowo wybranych cech może wpływać na błąd uogólnienia na dwa sposoby: wybranie wielu cech zwiększa siłę poszczególnych drzew, natomiast zmniejszenie liczby cech prowadzi do niższej korelacji między drzewami, zwiększając siłę lasu jako całości.

Co ciekawe, autorzy Random Forests (pdf) znajdują empiryczną różnicę między klasyfikacją a regresją:

Interesującą różnicą między regresją a klasyfikacją jest to, że korelacja rośnie dość powoli wraz ze wzrostem liczby używanych funkcji.

$N/3$ $\sqrt N$

$\sqrt N$ $\log N$

Zakres pośredni jest zwykle duży. W tym zakresie wraz ze wzrostem liczby funkcji korelacja wzrasta, ale PE * (drzewo) kompensuje zmniejszanie.

(PE * jest błędem generalizacji)

Jak mówią w elementach uczenia statystycznego:

W praktyce najlepsze wartości tych parametrów będą zależeć od problemu i należy je traktować jako parametry strojenia.

Problem może zależeć od liczby zmiennych kategorycznych. Jeśli masz wiele zmiennych kategorialnych zakodowanych jako zmienne zastępcze, zwykle warto zwiększyć parametr. Ponownie z gazety Random Forests:

$int(log_2M+1)$

— oW_
źródło

Dzięki, to bardzo przydatna odpowiedź. Rzeczywiście myślałem, że ma to coś wspólnego z siłą każdego drzewa w porównaniu z siłą lasu jako całości. I rzeczywiście, bardzo interesujące jest to, że istnieje taka różnica między regresją a klasyfikacją. Wielkie dzięki za połączenie oryginalnego papieru. Próbowałem zebrać takie papiery dla wielu technik.

— Valentin Calomme,