Motywacja za losowymi krokami algorytmu lasu

Znana mi metoda konstruowania losowego lasu jest następująca: (z http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm )

Aby zbudować drzewo w lesie:

Bootstrap próbkę o rozmiarze N, gdzie N jest rozmiarem naszego zestawu treningowego. Użyj tej próbki startowej jako zestawu treningowego dla tego drzewa.
W każdym węźle drzewa losowo wybierz m naszych funkcji M. Wybierz najlepsze z tych m funkcji do podziału. (gdzie m jest parametrem naszego Losowego Lasu)
Rozwijaj każde drzewo w największym możliwym stopniu - tj. Bez przycinania.

Podczas gdy ten algorytm ma sens na poziomie proceduralnym i z pewnością daje dobre wyniki, nie jestem pewien, jaka jest teoretyczna motywacja za krokami 1, 2 i 3. Czy ktoś mógłby wyjaśnić, co skłoniło kogoś do wymyślenia tej procedury i dlaczego działa tak dobrze?

Na przykład: dlaczego musimy wykonać krok 1? Nie wydaje się, abyśmy ładowali system ze względu na zwykły cel redukcji wariancji.

machine-learning classification random-forest

— tSchema
źródło

Metody grupowania (takie jak losowe lasy) wymagają pewnego elementu zmienności w zestawach danych, na których hodowane są poszczególne podstawowe klasyfikatory (w przeciwnym razie losowe lasy skończyłyby się lasem drzew, które są zbyt podobne). Ponieważ drzewa decyzyjne są bardzo wrażliwe na obserwacje w zestawie treningowym, zróżnicowanie obserwacji (za pomocą bootstrap) było, jak sądzę, naturalnym podejściem do uzyskania wymaganej różnorodności. Oczywistą alternatywą jest różnicowanie używanych funkcji, np. Trenowanie każdego drzewa na podzbiorze oryginalnych funkcji. Użycie próbek bootstrap pozwala nam także oszacować poziom błędu i zmienne znaczenie błędu „out-of-bag” (OOB).

2 jest zasadniczo innym sposobem na wstrzyknięcie losowości do lasu. Wpływa również na zmniejszenie korelacji między drzewami (poprzez zastosowanie niskiej wartości mtry), przy czym kompromisem jest (potencjalnie) pogorszenie mocy predykcyjnej. Użycie zbyt dużej wartości mtry spowoduje, że drzewa będą coraz bardziej do siebie podobne (aw skrajnym przypadku skończy się to workowaniem)

Uważam, że powodem nie przycinania jest bardziej fakt, że nie jest to konieczne niż cokolwiek innego. Z jednym drzewem decyzyjnym zwykle przycinasz je, ponieważ jest ono bardzo podatne na nadmierne dopasowanie. Jednak za pomocą próbek bootstrap i uprawy wielu drzew losowe lasy mogą wyhodować drzewa, które są indywidualnie silne, ale nie są szczególnie skorelowane ze sobą. Zasadniczo poszczególne drzewa są przeładowane, ale pod warunkiem, że ich błędy nie są skorelowane, las powinien być dość dokładny.

Powód, dla którego działa dobrze, jest podobny do twierdzenia jury Condorceta (i logiki stojącej za metodami takimi jak wzmocnienie). Zasadniczo masz wielu słabych uczniów, którzy muszą tylko odrobinę lepiej niż przypadkowe zgadywanie. Jeśli to prawda, możesz dodawać słabych uczniów, a na granicy uzyskać doskonałe prognozy ze swojego zespołu. Oczywiście jest to ograniczone ze względu na błędy korelacji uczniów, co uniemożliwia poprawę wydajności zespołu.

— SimonCB765
źródło

Dobra odpowiedź, a skojarzenie z twierdzeniem jury Condorceta ma sens. Jednak formalnie powodem, dla którego działa dobrze, jest nierówność Jensen!

— JEquihua