Ucząc się o zwiększaniu gradientu, nie słyszałem o żadnych ograniczeniach dotyczących właściwości „słabego klasyfikatora”, którego ta metoda używa do budowania i składania modelu. Jednak nie wyobrażam sobie zastosowania GB, który wykorzystuje regresję liniową, a właściwie po przeprowadzeniu niektórych testów - to nie działa. Testowałem najbardziej standardowe podejście z gradientem sumy kwadratów reszt i dodając kolejne modele razem.
Oczywistym problemem jest to, że reszty z pierwszego modelu są zapełniane w taki sposób, że tak naprawdę nie ma już linii regresji do dopasowania. Moje kolejne spostrzeżenie jest takie, że suma kolejnych modeli regresji liniowej może być również reprezentowana jako pojedynczy model regresji (dodając wszystkie punkty przecięcia i odpowiadające im współczynniki), więc nie wyobrażam sobie, jak to może ulepszyć model. Ostatnią obserwacją jest to, że regresja liniowa (najbardziej typowe podejście) wykorzystuje sumę kwadratów reszt jako funkcję straty - tę samą, której używa GB.
Pomyślałem także o obniżeniu współczynnika uczenia się lub zastosowaniu tylko podzbioru predyktorów dla każdej iteracji, ale ostatecznie można to w końcu zsumować do reprezentacji jednego modelu, więc myślę, że nie przyniosłoby to żadnej poprawy.
Czego tu brakuje? Czy regresja liniowa jest w jakiś sposób nieodpowiednia w przypadku korzystania z funkcji Gradient Boosting? Czy to dlatego, że regresja liniowa wykorzystuje sumę kwadratów reszt jako funkcję straty? Czy są jakieś szczególne ograniczenia słabych predyktorów, aby można je było zastosować do wzmocnienia gradientu?