Czy maszyna do zwiększania gradientu Friedmana może osiągnąć lepszą wydajność niż Losowy las Breimana ? Jeśli tak, to w jakich warunkach lub jakiego rodzaju zestaw danych może ulepszyć GBM?
Czy maszyna do zwiększania gradientu Friedmana może osiągnąć lepszą wydajność niż Losowy las Breimana ? Jeśli tak, to w jakich warunkach lub jakiego rodzaju zestaw danych może ulepszyć GBM?
Odpowiedzi:
Poniżej znajduje się wyjaśnienie, dlaczego wzmocnienie ogólnie przewyższa losowy las w praktyce, ale byłbym bardzo zainteresowany, aby dowiedzieć się, jakie inne czynniki mogą tłumaczyć przewagę wzmocnienia w stosunku do częstotliwości radiowej w określonych ustawieniach.
Z drugiej strony, Boosting zmniejsza stronniczość (dodając każde nowe drzewo w sekwencji, aby uchwycić to, co zostało pominięte przez poprzednie drzewo), ale także wariancję (łącząc wiele modeli).
Tak więc Boosting zmniejsza błąd na obu frontach, podczas gdy RF może zredukować błąd tylko poprzez zmniejszenie wariancji. Oczywiście, jak już powiedziałem, w praktyce mogą istnieć inne wyjaśnienia dotyczące lepszej wydajności wzmocnienia. Na przykład, strona 591 wspomnianej książki, mówi się, że Boosting przewyższa RF w problemie z kulą zagnieżdżoną, ponieważ w tym konkretnym przypadku granica decyzji jest addytywna . (?) Informują również, że Boosting działa lepiej niż RF dla spamu i danych dotyczących mieszkań w Kalifornii.
Kolejnym odniesieniem, w którym stwierdzono, że Boosting przewyższa RF, jest Caruana i Niculescu-Mizil 2006 . Niestety raportują wyniki, ale nie próbują wyjaśniać, co je powoduje. Porównali dwa klasyfikatory (i wiele innych) z 11 problemami z klasyfikacją binarną dla 8 różnych wskaźników wydajności.
Jak powiedział Bayerj, nie ma sposobu, aby poznać a priori!
Losowe lasy są stosunkowo łatwe do skalibrowania: domyślne parametry większości implementacji (na przykład R lub Python) osiągają świetne wyniki.
Z drugiej strony, GBM są trudne do dostrojenia (zbyt duża liczba drzew prowadzi do przeładowania, maksymalna głębokość jest krytyczna, szybkość uczenia się i liczba drzew działają razem ...) i dłużej trenują (implementacje wielowątkowe są rzadkie) . Luźno wykonane strojenie może prowadzić do niskiej wydajności.
Jednak z mojego doświadczenia wynika, że jeśli spędzasz wystarczająco dużo czasu na GBM, prawdopodobnie osiągniesz lepszą wydajność niż losowy las.
A loosely performed tuning may lead to dramatic performance?
Uważaj na błędną interpretację, ponieważ w języku angielskim dramatic
oznacza bardzo dobry, wyjątkowy, fenomenalny itp.! Wydaje mi się, że jest to przeciwieństwo tego, co chciałeś powiedzieć ... Czy masz jakieś wytłumaczenie, dlaczego dokładnie dostrojone GBM przewyższają RF? To w zasadzie pytanie ...