Uczenie się w zespole: dlaczego układanie modeli jest skuteczne?


11

Ostatnio zainteresowałem się układaniem modeli jako formą uczenia się w zespole. W szczególności trochę eksperymentowałem z niektórymi zestawami danych zabawek na problemy z regresją. Zasadniczo wdrożyłem indywidualne regresory „poziomu 0”, zapisałem prognozy wyjściowe każdego regresora jako nową funkcję dla „meta-regresora”, który należy wziąć za swój wkład, i dopasowałem ten meta-regresor do tych nowych funkcji (prognozy z poziomu 0 regresorów). Byłem bardzo zaskoczony, widząc nawet niewielką poprawę w stosunku do poszczególnych regresorów podczas testowania meta-regresora w stosunku do zestawu walidacyjnego.

Oto moje pytanie: dlaczego układanie modeli jest skuteczne? Intuicyjnie oczekiwałbym, że model wykonujący układanie będzie działał słabo, ponieważ wydaje się, że ma zubożałą reprezentację cech w porównaniu do każdego z modeli poziomu 0. Oznacza to, że jeśli wyszkolę 3 regresory poziomu 0 w zestawie danych z 20 funkcjami i wykorzystam prognozy regresorów poziomu 0 jako dane wejściowe do mojego meta-regresora, oznacza to, że mój meta-regresor ma tylko 3 funkcje do nauki. Wydaje się, że w 20 oryginalnych funkcjach jest więcej informacji zakodowanych przez regresory poziomu 0 do treningu niż 3 funkcje wyjściowe, których meta-regresor używa do treningu.

Odpowiedzi:


5

Pomyśl o złożeniu jako zasadniczo wykorzystaniu centralnego twierdzenia o granicy.

Twierdzenie o limicie centralnym luźno mówi, że wraz ze wzrostem wielkości próby średnia próbki stanie się coraz bardziej dokładnym oszacowaniem rzeczywistej lokalizacji średniej populacji (zakładając, że jest to statystyka, na którą patrzysz), a wariancja zostanie zaostrzona .

Jeśli masz jeden model, który daje jedną prognozę dla zmiennej zależnej, ta prognoza będzie prawdopodobnie do pewnego stopnia wysoka lub niska. Ale jeśli masz 3, 5 lub 10 różnych modeli, które wytwarzają różne prognozy, dla każdej danej obserwacji wysokie prognozy z niektórych modeli będą miały tendencję do kompensowania niskich błędów z innych modeli, a efektem netto będzie zbieżność średniej (lub inna kombinacja) prognoz dotyczących „prawdy”. Nie przy każdej obserwacji, ale ogólnie taka jest tendencja. Tak więc ogólnie zespół przewyższy najlepszy pojedynczy model.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.