Nie należy mylić obsługi predyktorów (przez podstawowych uczących się, np. Kikutów) i obsługi funkcji straty podczas wzmacniania. Chociaż AdaBoost może być uważany za znajdowanie kombinacji podstawowych uczniów w celu zminimalizowania błędu błędnej klasyfikacji, cytowany artykuł „Addytywna regresja logistyczna” pokazuje, że można go również sformułować w celu zminimalizowania funkcji straty wykładniczej. Ta wiedza otworzyła podejście wspomagające do szerokiej klasy problemów związanych z uczeniem maszynowym, które minimalizują różne funkcje strat poprzez zwiększenie gradientu . Reszty pasujące na każdym etapie to pseudo-reszty obliczone na podstawie gradientu funkcji straty. Nawet jeśli predyktory są modelowane jako kikuty binarne, dane wyjściowe modelu nie muszą być zatem wyborem binarnym.
Jak wynika z innej odpowiedzi, liniowi uczniowie podstawowi mogą nie działać na rzecz wzmocnienia, ale liniowi uczniowie podstawowi nie są wymagani do „wzmocnionej regresji” w sensie standardowym ani logistycznym. Zdecydowanie nieliniowe pnie można łączyć jako powolnych uczniów, aby zminimalizować odpowiednie funkcje utraty. Nadal nazywa się to „regresją wzmocnioną”, mimo że jest daleki od standardowego modelu regresji liniowej we współczynnikach predyktorów. Funkcja strat może być funkcjonalnie taka sama dla modeli liniowych i modeli „regresji wzmocnionej” z kikutami lub drzewami jako predyktorami. Rozdział 8 ISLR wyjaśnia to dość wyraźnie.
Jeśli więc chcesz regresji logistycznej odpowiadającej regresji wzmocnionej, skoncentruj się raczej na funkcji utraty niż na podstawowych uczniach. To właśnie robi podejście LogitBoost w cytowanym przez ciebie artykule: zminimalizuj utratę logów zamiast straty wykładniczej ukrytej w adaboost. Strona Wikipedii AdaBoost opisuje tę różnicę.
Wielu uczestników tej strony twierdzi, że przewidywanie logarytmiczne / prawdopodobieństwa jest wysoce preferowane niż ścisłe przewidywanie klasyfikacji tak / nie, ponieważ ta pierwsza bardziej ogólnie dopuszcza różne kompromisy między dodatkowymi kosztami prognoz fałszywie dodatnich i fałszywie ujemnych . Jak wskazuje odpowiedź na powiązane pytanie , możliwe jest uzyskanie szacunkowych prawdopodobieństw na podstawie silnego klasyfikatora pochodzącego z AdaBoost, ale LogitBoost może również dać lepszą wydajność.
Implementacje wzmocnienia gradientu dla klasyfikacji mogą dostarczyć informacji na temat podstawowych prawdopodobieństw. Na przykład strona o zwiększaniu gradientu pokazuje, w jaki sposób sklearn
kod pozwala na wybór między utratą dewiacji dla regresji logistycznej i wykładniczej straty dla AdaBoost, a funkcjami dokumentującymi przewidywanie prawdopodobieństwa na podstawie modelu z podwyższonym gradientem.