Co oznacza „rozmiar węzła” w Losowym lesie?


Odpowiedzi:


24

Drzewo decyzyjne działa przez rekurencyjną partycję zestawu treningowego. Każdy węzeł drzewa decyzyjnego jest skojarzony z zestawem n t punktów danych ze zbioru treningowego:tnt

n_t jest rozmiarem każdego węzła

Możesz znaleźć parametr nodesizew niektórych losowych pakietach lasów, np. R : To jest minimalny rozmiar węzła , w powyższym przykładzie minimalny rozmiar węzła wynosi 10. Ten parametr domyślnie określa głębokość twoich drzew.

nodesize z losowego pakietu lasu R.

Minimalny rozmiar węzłów końcowych. Zwiększenie tej liczby powoduje wzrost mniejszych drzew (a zatem zajmuje mniej czasu). Zauważ, że wartości domyślne są różne dla klasyfikacji (1) i regresji (5).

W innych pakietach znajduje się parametr depth, np. WEKA :

-depth z losowego pakietu leśnego WEKA

Maksymalna głębokość drzew, 0 dla nieograniczonej. (domyślnie 0)


1
Co to są „rekordy”? Masz na myśli punkty danych? Dlaczego każdy węzeł jest powiązany z zestawem rekordów? Rozumiem losowe lasy całkiem dobrze, ale nie wiem, co oznacza żargon.
wolfsatthedoor

Tak, miałem na myśli punkt danych. Zazwyczaj punkty danych można nazywać rekordami, instancjami lub przykładami.
Simone,

Czy istnieje reguła praktyczna minimalnego rozmiaru węzła, aby uniknąć nadmiernego dopasowania drzew? Wyobrażam sobie, że zależy to od wielkości danych szkoleniowych, więc może pewna część wielkości zbioru danych?
Seanosapien

1
W losowych lasach drzewa są w pełni wyhodowane: wielkość węzła wynosi 1. Unika się przeuczenia, aby wyhodować wiele drzew. W drzewie decyzyjnym jest to trudniejsze. Drzewa nie są w pełni wyhodowane i trzeba wykonać przycinanie, aby uniknąć nadmiernego dopasowania.
Simone,

1
Wygląda na to, że winnowing to rodzaj wyboru funkcji, który upraszcza drzewo i pozwala uniknąć nadmiernego dopasowania. Przycinanie pojedynczego drzewa jest zawsze korzystne. Zamiast tego wietrzenie może czasem zmniejszyć dokładność, ale upraszcza drzewo.
Simone

2

Nie jest jasne, czy rozmiar węzła dotyczy próbkowania „w torbie” czy błędu „poza torbą”. Jeśli chodzi o próbkowanie „poza torbą”, jest nieco bardziej restrykcyjne.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.