Zwiększanie gradientu dla regresji liniowej

35

Ucząc się o zwiększaniu gradientu, nie słyszałem o żadnych ograniczeniach dotyczących właściwości „słabego klasyfikatora”, którego ta metoda używa do budowania i składania modelu. Jednak nie wyobrażam sobie zastosowania GB, który wykorzystuje regresję liniową, a właściwie po przeprowadzeniu niektórych testów - to nie działa. Testowałem najbardziej standardowe podejście z gradientem sumy kwadratów reszt i dodając kolejne modele razem.

Oczywistym problemem jest to, że reszty z pierwszego modelu są zapełniane w taki sposób, że tak naprawdę nie ma już linii regresji do dopasowania. Moje kolejne spostrzeżenie jest takie, że suma kolejnych modeli regresji liniowej może być również reprezentowana jako pojedynczy model regresji (dodając wszystkie punkty przecięcia i odpowiadające im współczynniki), więc nie wyobrażam sobie, jak to może ulepszyć model. Ostatnią obserwacją jest to, że regresja liniowa (najbardziej typowe podejście) wykorzystuje sumę kwadratów reszt jako funkcję straty - tę samą, której używa GB.

Pomyślałem także o obniżeniu współczynnika uczenia się lub zastosowaniu tylko podzbioru predyktorów dla każdej iteracji, ale ostatecznie można to w końcu zsumować do reprezentacji jednego modelu, więc myślę, że nie przyniosłoby to żadnej poprawy.

Czego tu brakuje? Czy regresja liniowa jest w jakiś sposób nieodpowiednia w przypadku korzystania z funkcji Gradient Boosting? Czy to dlatego, że regresja liniowa wykorzystuje sumę kwadratów reszt jako funkcję straty? Czy są jakieś szczególne ograniczenia słabych predyktorów, aby można je było zastosować do wzmocnienia gradientu?

— Matek
źródło

Intuicyjnie myślę, że nie powinieneś używać klasyfikatorów, ponieważ ich suma to ten sam typ klasyfikatora. np. suma funkcji liniowych jest funkcją liniową.

— user18764

Wiem, że to jest stare, ale rozumiem, że krok wzmacniający minimalizuje funkcję straty między obecnymi resztami a podstawowym uczniem (która w twoim przypadku jest regresem liniowym) pomnożonym przez współczynnik uczenia się. Tak więc, podczas gdy podstawowy uczeń minimalizuje mse, funkcja utraty używana przez wzmacniacz może być tym samym MAPE?

— David Waterworth,

35

Czego tu brakuje?

Nie sądzę, żebyś tak naprawdę za niczym tęsknił!

Inna obserwacja jest taka, że suma kolejnych modeli regresji liniowej może być również reprezentowana jako pojedynczy model regresji (dodając wszystkie punkty przecięcia i odpowiadające im współczynniki), więc nie wyobrażam sobie, jak to może ulepszyć model. Ostatnią obserwacją jest to, że regresja liniowa (najbardziej typowe podejście) wykorzystuje sumę kwadratów reszt jako funkcję straty - tę samą, której używa GB.

Wydaje mi się, że właśnie to przybiłeś, i przedstawiłeś krótki szkic dowodu, że regresja liniowa bije tylko przyspieszanie regresji liniowych w tym ustawieniu.

Aby być pedantycznym, obie metody próbują rozwiązać następujący problem optymalizacji

\hat{β} = {argmin}_{β} (y - X β)^{t} (y - X β)

$\hat \beta = \text{argmin}_\beta (y - X \beta)^t (y - X \beta)$

Regresja liniowa po prostu zauważa, że można go rozwiązać bezpośrednio, znajdując rozwiązanie równania liniowego

X^{t} X β = X^{t} y

$X^t X \beta = X^t y$

$\beta$

$\beta_1, \beta_2, \ldots$

X β_{1} + X β_{2} + \dots + X β_{n} = X (β_{1} + β_{2} + \dots + β_{n})

$X \beta_1 + X \beta_2 + \cdots + X \beta_n = X (\beta_1 + \beta_2 + \cdots + \beta_n)$

Każdy z tych kroków jest wybierany w celu dalszego zmniejszenia sumy błędów kwadratu. Ale moglibyśmy znaleźć minimalną możliwą sumę błędów kwadratowych w tej postaci funkcjonalnej, po prostu wykonując pełną regresję liniową na początek.

Możliwą obroną wzmocnienia w tej sytuacji może być dorozumiana regularyzacja, którą zapewnia. Być może (nie grałem z tym) możesz użyć funkcji wczesnego zatrzymania wzmacniacza gradientu, wraz z weryfikacją krzyżową, aby zatrzymać się przed pełną regresją liniową. Zapewniłoby to uregulowanie regresji i prawdopodobnie pomogłoby w przeregulowaniu. Nie jest to szczególnie praktyczne, ponieważ w tym ustawieniu dostępne są bardzo skuteczne i dobrze znane opcje, takie jak regresja kalenicy i elastyczna siatka.

Wzmocnienie błyszczy, gdy nie ma zwięzłej funkcjonalnej formy. Wzmocnienie drzew decyzyjnych pozwala, aby funkcjonalna forma regresora / klasyfikatora rozwijała się powoli, dopasowując do danych, często skutkując złożonymi kształtami, o których nie można sobie nawet wyobrazić ręką i okiem. Kiedy pożądana jest prosta funkcjonalna forma , wzmocnienie nie pomoże ci jej znaleźć (lub przynajmniej jest to raczej nieefektywny sposób jej znalezienia).

— Matthew Drury
źródło

2

β

$\beta$

To bardzo dobra i jasna odpowiedź. Dzięki za potwierdzenie / wyjaśnienie Matthew!

— Matek

„Wzmocnienie świeci, gdy nie ma zwięzłej funkcjonalnej formy.” To odpowiedź, której szukam. Więc, chcę tylko potwierdzić, czy masz na myśli, że odpowiedź na moje pytanie brzmi „tak”, ale nikt nie używa modelu liniowego jako podstawowego ucznia ?, stats.stackexchange.com/questions/231286/…

— Haitao Du

5

Macierz projekcji najmniejszych kwadratów jest podana przez

$X(X^{T}X)^{-1}X^{T}$

$\hat{y}$

$\hat{y} = X(X^{T}X)^{-1}X^{T}y$

Załóżmy, że pasujesz do regresji, a następnie obliczasz swoje wartości resztkowe

$e = y - \hat{y} = y - X(X^{T}X)^{-1}X^{T}y$

$\hat{y}_{2}$

$\hat{y}_{2} = X(X^{T}X)^{-1}X^{T}e \\ \quad = X(X^{T}X)^{-1}X^{T} (y - X(X^{T}X)^{-1}X^{T}y) \\ \quad = X(X^{T}X)^{-1}X^{T}y - X(X^{T}X)^{-1}X^{T}X(X^{T}X)^{-1}X^{T}y \\ \quad = X(X^{T}X)^{-1}X^{T}y - X(X^{T}X)^{-1}X^{T}y \\ \quad = 0$

$\hat{y}$

Oznacza to proste podejście dopasowania regresji, a następnie dopasowanie nowej regresji dla reszt z pierwszej regresji nie da nic sensownego, ponieważ X jest całkowicie nieskorelowany z e.

Piszę to, ponieważ powiedziałeś, że tak naprawdę nie ma nowej linii do dopasowania, która odpowiada powyższym pochodnym.

— kirtap
źródło

Zwiększanie gradientu dla regresji liniowej - dlaczego to nie działa?