Jakie powinny być optymalne parametry dla klasyfikatora Random Forest?

14

Obecnie używam przybornika RF na MATLAB do binarnej klasyfikacji problemu

Zestaw danych: 50000 próbek i ponad 250 funkcji

Jaka powinna być liczba drzew i losowo wybrana funkcja na każdym podziale, aby rosły drzewa? czy jakikolwiek inny parametr może znacząco wpłynąć na wyniki?

machine-learning classification random-forest

— Rizwan
źródło

8

Wybierz dużą liczbę drzew, powiedzmy 100. Z tego, co przeczytałem w Internecie, wybierz losowo wybranych funkcji. Jednak w oryginalnym artykule Breiman użył około liczby całkowitej najbliższej . $\sqrt{250}$ $\frac{\log{M}}{\log{2}}$

Powiedziałbym, że walidacja krzyżowa jest zwykle kluczem do znalezienia optymalnych parametrów, ale nie wiem wystarczająco dużo o losowych lasach.

— Wok
źródło

Breiman zastosował funkcje . Zostawiam tutaj komentarz, ponieważ twój link nie działa :)

⌊ 1 + \log_{2} M ⌋

$\lfloor 1 + \log_2 M\rfloor$

— Antoine

Dzięki, zaktualizowałem link. Teraz jest bezpośrednio do Berkeley.

— Wok

12

Liczba drzew jest większa, tym lepiej. Prawie nie można przekroczyć tego parametru, ale oczywiście górny limit zależy od czasu obliczeniowego, który chcesz spędzić na RF.
Dobrym pomysłem jest utworzenie najpierw długiego lasu, a następnie sprawdzenie (mam nadzieję, że jest on dostępny w implementacji MATLAB), gdy zbieżność dokładności OOB jest zbieżna.

Liczba wypróbowanych atrybutów domyślnie jest pierwiastkiem kwadratowym z całej liczby atrybutów, ale zazwyczaj las nie jest bardzo wrażliwy na wartość tego parametru - w rzeczywistości rzadko jest on optymalizowany, zwłaszcza, że stochastyczny aspekt RF może wprowadzać większe warianty.

7

Liczba drzew im większa, tym lepiej: uzgodniona.

Liczba wypróbowanych atrybutów będzie zależeć. Jeśli masz już jakieś a priori na temat sposobu, w jaki informacje się rozprzestrzeniają, czy nie między funkcjami. Jeśli informacje są wspólne dla wielu funkcji, lepsze wyniki przyniosłyby mniejszą wartość tego parametru. Z drugiej strony, jeśli tylko kilka funkcji przenosi informacje, powinieneś użyć większych wartości. Innymi słowy, z wieloma istotnymi zmiennymi: mniejsze wartości są lepsze i z wieloma nieistotnymi zmiennymi: większe wartości są lepsze.

— 0asa
źródło

1

Chociaż twoje twierdzenie o liczbie wypróbowanych atrybutów ma sens, czy masz na to powód?

— James Owers

Poleciłbym przeczytać tę tezę: github.com/glouppe/phd-thesis, a także tę: orbi.ulg.ac.be/handle/2268/25737

— 0asa