Czy losowy las jest algorytmem wzmacniającym?


51

Krótka definicja wzmocnienia :

Czy zestaw słabych uczniów może stworzyć jednego silnego ucznia? Słaby uczeń jest zdefiniowany jako klasyfikator, który jest tylko nieznacznie skorelowany z prawdziwą klasyfikacją (może lepiej opisywać przykłady niż losowe zgadywanie).

Krótka definicja lasu losowego :

Losowe lasy wyrastają z wielu drzew klasyfikacyjnych. Aby sklasyfikować nowy obiekt na podstawie wektora wejściowego, umieść wektor wejściowy w dół każdego drzewa w lesie. Każde drzewo podaje klasyfikację, a my mówimy, że drzewo „głosuje” na tę klasę. Las wybiera klasyfikację mającą najwięcej głosów (nad wszystkimi drzewami w lesie).

Kolejna krótka definicja Losowego lasu :

Losowy las jest meta estymatorem, który pasuje do wielu klasyfikatorów drzewa decyzyjnego w różnych podpróbkach zbioru danych i wykorzystuje uśrednianie w celu poprawy dokładności predykcyjnej i kontroli nadpasowaniem.

Jak rozumiem, Losowy Las jest algorytmem wzmacniającym, który wykorzystuje drzewa jako słabe klasyfikatory. Wiem, że wykorzystuje także inne techniki i ulepsza je. Ktoś mnie poprawił, że losowy las nie jest algorytmem wzmacniającym?

Czy ktoś może wyjaśnić, dlaczego Losowy Las nie jest algorytmem wzmacniającym?


13
Losowe lasy to algorytm workowania: en.wikipedia.org/wiki/Bootstrap_aggregating . Sugeruję przeczytanie więcej niż najkrótszego możliwego opisu wzmocnienia, aby zobaczyć różnicę. Podczas wzmacniania strategia ponownego próbkowania nie jest losowa.
Marc Claesen,

12
Ciekawostka: w oryginalnej pracy Random Forest Breiman sugeruje, że AdaBoost (z pewnością algorytm wspomagający) robi głównie Random Forest, gdy po kilku iteracjach przestrzeń optymalizacji staje się tak głośna, że ​​po prostu krąży stochastycznie.

Odpowiedzi:


81

Random Forest to algorytm workowania, a nie algorytm przyspieszający. Są dwa przeciwne sposoby osiągnięcia niskiego błędu.

Wiemy, że błąd można wyliczyć z błędu i wariancji. Zbyt skomplikowany model ma niską stronniczość, ale dużą wariancję, podczas gdy zbyt prosty model ma niską wariancję, ale dużą stronniczość, oba prowadzą do wysokiego błędu, ale z dwóch różnych powodów. W rezultacie przychodzą na myśl dwa różne sposoby rozwiązania problemu (może Breiman i inni), redukcja wariancji dla modelu złożonego lub redukcja odchylenia dla modelu prostego, który odnosi się do losowego lasu i wzmocnienia.

Losowy las zmniejsza wariancję dużej liczby „złożonych” modeli o niskim odchyleniu. Widzimy, że elementy kompozycji nie są modelami „słabymi”, ale modelami zbyt złożonymi. Jeśli przeczytasz o algorytmie, drzewa pod nim są sadzone „nieco” tak duże, jak to możliwe. Podstawowymi drzewami są niezależne równoległe modele. Wprowadzono do nich dodatkowy wybór zmiennych losowych, aby uczynić je jeszcze bardziej niezależnymi, co sprawia, że ​​działa ono lepiej niż zwykłe pakowanie i nadaje nazwę „losowa”.

Podczas wzmacniania zmniejsza tendencyjność dużej liczby „małych” modeli o niskiej wariancji. Są to „słabe” modele, jak zacytowałeś. Elementy leżące u podstaw przypominają „łańcuchowy” lub „zagnieżdżony” model iteracyjny dotyczący odchylenia na każdym poziomie. Nie są to więc niezależne równoległe modele, ale każdy model jest budowany w oparciu o wszystkie poprzednie małe modele według ważenia. Jest to tak zwane „wzmocnienie” jeden po drugim.

Papiery i książki Breimana dyskutują o drzewach, losowych lasach i całkiem sporo. Pomaga zrozumieć zasadę działania algorytmu.


25

Losowy las nie jest uważany za algorytm wzmacniający.

Jak wyjaśniono w linku do wzmocnienia:

... większość algorytmów wzmacniających polega na iteracyjnym uczeniu się słabych klasyfikatorów w odniesieniu do rozkładu i dodawaniu ich do ostatecznego silnego klasyfikatora. Po dodaniu są zazwyczaj ważone w jakiś sposób, który jest zwykle związany z dokładnością słabych uczniów. Po dodaniu słabego ucznia dane są ponownie ważone ...

Przykładem tego iteracyjnego procesu jest adaboost, w którym słabsze wyniki są wzmacniane lub ponownie ważone w wielu iteracjach, aby uczący się bardziej skoncentrował się na obszarach, w których popełnił błąd, a mniej na tych, które były prawidłowe.

Losowy las, przeciwnie, jest zbiorową metodą workowania lub uśredniania, która ma na celu zmniejszenie wariancji poszczególnych drzew poprzez losowe wybieranie (a tym samym dekorelację) wielu drzew z zestawu danych i ich uśrednianie.


7

Jest przedłużeniem workowania. Procedura jest następująca: pobierasz próbkę danych startowych, a następnie używasz jej do wyhodowania drzewa klasyfikacji lub regresji (CART). Odbywa się to z góry określoną liczbę razy, a prognozą jest następnie agregacja prognoz poszczególnych drzew, może to być głos większościowy (dla klasyfikacji) lub średnia (dla regresji). Takie podejście nazywa się workowaniem (Breiman 1994). Ponadto zmienna kandydująca dla każdego podziału każdego z nichdrzewo jest pobierane z losowej próbki wszystkich dostępnych zmiennych niezależnych. Wprowadza to jeszcze większą zmienność i czyni drzewa bardziej różnorodnymi. Nazywa się to metodą losowej podprzestrzeni (Ho, 1998). Jak wspomniano, daje to drzewa bardzo różnorodne, co przekłada się na drzewa, które są od siebie wysoce niezależne. Z powodu nierówności Jensena wiemy, że średnia błędów prognoz drzew jest mniejsza lub równa błędowi przeciętnego drzewa wyhodowanego z tego zbioru danych. Innym sposobem, aby na to spojrzeć, jest spojrzenie na średni błąd kwadratu i zauważenie, jak można go rozłożyć na części błędu i wariancji (jest to związane z problemem w nadzorowanym uczeniu, zwanym kompromisem wariancji błędu). Losowy las osiąga lepszą dokładność poprzez zmniejszenie wariancji poprzez uśrednienie prognozy drzew ortogonalnych. Należy zauważyć, że dziedziczy on uprzedzenia swoich drzew, co jest dość dyskutowanym problemem, sprawdź na przykład to pytanie.



3

Losowy las jest techniką workowania, a nie techniką wzmacniającą. Wzmacniając, jak sama nazwa wskazuje, jeden uczy się od drugiego, co z kolei przyspiesza naukę.

Drzewa w losowych lasach biegną równolegle. Podczas ich budowy nie ma interakcji między tymi drzewami. Po zbudowaniu wszystkich drzew, głosowanie lub średnia jest brana pod uwagę we wszystkich prognozach drzew, w zależności od tego, czy problemem jest problem klasyfikacji czy regresji.

Drzewa w algorytmach przypominających, takich jak GBM-Gradient Boosting, są trenowane sekwencyjnie.

Powiedzmy, że pierwsze drzewo zostało przeszkolone i wykonało pewne prognozy dotyczące danych treningowych. Nie wszystkie z tych prognoz byłyby poprawne. Powiedzmy, że spośród 100 prognoz pierwsze drzewo popełniło błąd w 10 obserwacjach. Teraz te 10 obserwacji zyska większy ciężar podczas budowania drugiego drzewa. Zauważ, że nauka drugiego drzewa została przyspieszona dzięki nauce pierwszego drzewa. Stąd termin „przyspieszenie”. W ten sposób każde z drzew buduje się sekwencyjnie w oparciu o wnioski z poprzednich drzew.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.