Losowe założenia lasu

43

Jestem trochę nowym przypadkowym lasem, więc wciąż mam problemy z podstawowymi pojęciami.
W regresji liniowej zakładamy niezależne obserwacje, stałą wariancję…

Jakie są podstawowe założenia / hipotezy, kiedy korzystamy z losowego lasu?
Jakie są kluczowe różnice między losowymi lasami a naiwnymi laskami pod względem założeń modelowych?

regression classification random-forest

— użytkownik1848018
źródło

33

Dzięki za bardzo dobre pytanie! Spróbuję za tym oprzeć swoją intuicję.

Aby to zrozumieć, pamiętaj o „składnikach” losowego klasyfikatora leśnego (są pewne modyfikacje, ale jest to ogólny potok):

Na każdym etapie budowania pojedynczego drzewa znajdujemy najlepszy podział danych
Podczas budowania drzewa nie używamy całego zestawu danych, ale próbkę ładowania początkowego
Poszczególne dane wyjściowe drzewa agregujemy przez uśrednienie (w rzeczywistości 2 i 3 oznaczają razem bardziej ogólną procedurę pakowania ).

Załóżmy pierwszy punkt. Nie zawsze jest możliwe znalezienie najlepszego podziału. Na przykład w poniższym zestawie danych każdy podział da dokładnie jeden błędnie sklasyfikowany obiekt. Przykład zestawu danych bez najlepszego podziału

I myślę, że dokładnie ten punkt może być mylący: w rzeczywistości zachowanie pojedynczego podziału jest w pewien sposób podobne do zachowania klasyfikatora Naive Bayes: jeśli zmienne są zależne - nie ma lepszego podziału dla drzew decyzyjnych, a klasyfikator Naive Bayes również zawodzi (tylko dla przypomnienia: zmienne niezależne są głównym założeniem, które przyjmujemy w klasyfikatorze Naive Bayes; wszystkie inne założenia pochodzą z wybranego przez nas modelu probabilistycznego).

Ale tu pojawia się wielką zaletą drzew decyzyjnych: bierzemy żadnego rozłamu i kontynuować dalszy podział. A dla kolejnych podziałów znajdziemy idealną separację (na czerwono). Przykład granicy decyzji

A ponieważ nie mamy modelu probabilistycznego, a jedynie podział binarny, nie musimy wcale przyjmować żadnych założeń.

Chodziło o Drzewo decyzyjne, ale dotyczy to także Losowego Lasu. Różnica polega na tym, że w Random Forest używamy Agregacji Bootstrap. Nie ma pod nim żadnego modelu, a jedynym założeniem, na którym się opiera, jest to, że próbkowanie jest reprezentatywne . Ale zwykle jest to powszechne założenie. Na przykład, jeśli jedna klasa składa się z dwóch składników, a w naszym zestawie danych jeden składnik jest reprezentowany przez 100 próbek, a inny składnik jest reprezentowany przez 1 próbkę - prawdopodobnie większość pojedynczych drzew decyzyjnych zobaczy tylko pierwszy składnik, a Losowy Las błędnie sklasyfikuje drugi . Przykład słabo reprezentowanego drugiego komponentu

Mam nadzieję, że da to trochę więcej zrozumienia.

— Dmitrij Łaptiew
źródło

10

W jednym artykule z 2010 r. Autorzy udokumentowali, że losowe modele leśne nierzetelnie oszacowały znaczenie zmiennych, gdy zmienne były wielokoliniowe w wielowymiarowej przestrzeni statystycznej. Zazwyczaj sprawdzam to przed uruchomieniem losowych modeli lasu.

http://www.esajournals.org/doi/abs/10.1890/08-0879.1

— Mina
źródło

3

Czy wierzysz w konkluzje „Określanie połączeń Bufo Boreas w Parku Narodowym Yellowstone z genetyką krajobrazu” w Ekologii autorstwa autorów z Colorado State zamiast autorów Berkeley w Machine Learning na temat algorytmów uczenia maszynowego?

— Hack-R

8

Nie sądzę, że są ze sobą w sprzeczności. Breiman nie zbadał tego „specjalnego przypadku” wielokolonowości w przestrzeni wielowymiarowej. Poza tym ludzie ze stanu Kolorado też potrafią być sprytni - i tacy są.

— Mina,