Jak wybrać liczbę drzew w uogólnionym modelu regresji wzmocnionej?

11

Czy istnieje strategia wyboru liczby drzew w GBM? W szczególności, ntreesargument R„s gbmfunkcji.

Nie rozumiem, dlaczego nie powinieneś ustawić ntreesnajwyższej rozsądnej wartości. Zauważyłem, że większa liczba drzew wyraźnie zmniejsza zmienność wyników z wielu GBM. Nie sądzę, aby duża liczba drzew prowadziła do nadmiernego dopasowania.

jakieś pomysły?

r machine-learning gbm

— wcampbell
źródło

3

To jest GBM:

„ Nie sądzę, aby ... ” była niebezpieczną pierwszą częścią wielu zdań.

Wystarczająco dobre jest pozbawione sensu bez miary dobroci, rubryki.

Jakie są miary dobroci dla każdej innej metody?

Różnica między modelem a danymi (sse, ...)
Rozbieżność błędu w zestawie blokującym (błąd szkolenia vs. błąd testu)
Stosunek liczby parametrów do liczby próbek (większość ludzi lubi 5 próbek na parametr lub 30 próbek na parametr)
Krzyżowa walidacja (metody zbiorcze dotyczące rozbieżności testów błędów)

Podobnie jak sieć neuronowa lub splajn, możesz wykonać częściową interpolację liniową danych i uzyskać model, którego nie można uogólnić. Musisz zrezygnować z części „niskiego błędu” w zamian za ogólne zastosowanie - uogólnienie.

Więcej linków:

— EngrStudent
źródło

2

Znalazłem pewien wgląd w problem: http://cran.r-project.org/web/packages/dismo/vignettes/brt.pdf

gbm.stepFunkcja może być używana w celu określenia optymalnej liczby drzew. Nadal nie jestem pewien, co powoduje wzrost dewiacji modelu po określonej liczbie drzew, więc nadal jestem gotów przyjąć odpowiedź, która odpowiada na tę część pytania!

— wcampbell
źródło

2

Przeregulowanie powoduje wzrost. Większość dobrych metod tworzy zestaw blokad i używa go do testowania modelu, ale nie do aktualizacji modelu. Umożliwia to wykrycie początku przeładowania.

— EngrStudent

0

To jest przewodnik do przyspieszonych drzew regresji z Elith i wsp .: http://onlinelibrary.wiley.com/doi/10.1111/j.1365-2656.2008.01390.x/full Bardzo pomocny!

Powinieneś użyć co najmniej 1000 drzew. O ile rozumiem, powinieneś użyć kombinacji szybkości uczenia się, złożoności drzew i liczby drzew, która osiąga minimalny błąd predykcyjny. Mniejsze wartości wskaźnika uczenia się prowadzą do większego ryzyka treningu dla tej samej liczby iteracji, a każda iteracja zmniejsza ryzyko treningu. Jeśli liczba drzew jest wystarczająco duża, ryzyko może zostać dowolnie zmniejszone (patrz: Hastie i in., 2001, „Elementy statystycznego uczenia się, eksploracji danych, wnioskowania i prognozowania” ).

— V.Vetter
źródło

To prawda, że Elith i in. sugeruj z reguły użycie 1000 drzew. Jest to jednak oparte na szczegółowej analizie stabilności predykcyjnej dla określonego zestawu danych użytego w pracy. Wydaje się mało prawdopodobne, aby ta sama liczba działała dla każdego możliwego zestawu danych. Być może możesz nieco rozszerzyć swoją odpowiedź, podając szczegółowe informacje na temat przeprowadzonej przez nich analizy, szczególnie w załączniku S1.

— DeltaIV

0

Jak to często bywa w niektórych algorytmach uczenia maszynowego, doładowanie podlega kompromisowi wariancji odchylenia względem liczby drzew. Mówiąc luźniej, ta kompromis mówi, że: (i) słabe modele mają tendencję do wysokiego odchylenia i niskiej wariancji: są zbyt sztywne, aby uchwycić zmienność w zbiorze danych szkoleniowych, więc też nie będą dobrze działać w zestawie testowym (wysoki test błąd) (ii) bardzo mocne modele mają tendencję do niskiej tendencyjności i dużej zmienności: są zbyt elastyczne i przewyższają zestaw treningowy, więc w zestawie testowym (ponieważ punkty danych różnią się od zestawu treningowego) również nie będą działały dobrze (wysoki błąd testu)

Koncepcja wzmocnienia drzew polega na rozpoczęciu od płytkich drzew (słabych modeli) i dodawaniu kolejnych płytkich drzew, które próbują skorygować osłabienia poprzednich drzew. Podczas wykonywania tego procesu błąd testowy ma tendencję do zmniejszania się (ponieważ ogólny model staje się bardziej elastyczny / wydajny). Jeśli jednak dodasz zbyt wiele tych drzew, zaczniesz przepełniać dane treningowe, a zatem wzrośnie błąd testu. Krzyżowa walidacja pomaga znaleźć najlepsze miejsce

— Frederico Lopes
źródło