Ostatnio zainteresowałem się układaniem modeli jako formą uczenia się w zespole. W szczególności trochę eksperymentowałem z niektórymi zestawami danych zabawek na problemy z regresją. Zasadniczo wdrożyłem indywidualne regresory „poziomu 0”, zapisałem prognozy wyjściowe każdego regresora jako nową funkcję dla „meta-regresora”, który należy wziąć za swój wkład, i dopasowałem ten meta-regresor do tych nowych funkcji (prognozy z poziomu 0 regresorów). Byłem bardzo zaskoczony, widząc nawet niewielką poprawę w stosunku do poszczególnych regresorów podczas testowania meta-regresora w stosunku do zestawu walidacyjnego.
Oto moje pytanie: dlaczego układanie modeli jest skuteczne? Intuicyjnie oczekiwałbym, że model wykonujący układanie będzie działał słabo, ponieważ wydaje się, że ma zubożałą reprezentację cech w porównaniu do każdego z modeli poziomu 0. Oznacza to, że jeśli wyszkolę 3 regresory poziomu 0 w zestawie danych z 20 funkcjami i wykorzystam prognozy regresorów poziomu 0 jako dane wejściowe do mojego meta-regresora, oznacza to, że mój meta-regresor ma tylko 3 funkcje do nauki. Wydaje się, że w 20 oryginalnych funkcjach jest więcej informacji zakodowanych przez regresory poziomu 0 do treningu niż 3 funkcje wyjściowe, których meta-regresor używa do treningu.