W jaki sposób metody zespołowe przewyższają wszystkie ich składniki?


16

Jestem trochę zdezorientowany co do nauki zespołowej. Krótko mówiąc, uruchamia k modeli i otrzymuje średnią z tych k modeli. Jak można zagwarantować, że średnia z modeli k byłaby lepsza niż którykolwiek z samych modeli? Rozumiem, że odchylenie jest „rozłożone” lub „uśrednione”. Co jednak, jeśli w zespole są dwa modele (tj. K = 2), a jeden z nich jest gorszy od drugiego - czy zespół nie byłby gorszy od lepszego modelu?


Jeśli chodzi o układanie w stosy:
Franck Dernoncourt

ten wątek mnie interesuje, ale podniósł więcej pytań niż odpowiedzi. Czy wszyscy moglibyśmy użyć trochę więcej aby bardziej rygorystycznie zdefiniować wszystkie te słowa, których używamy? LATEX
Taylor

Odpowiedzi:


23

Nie ma gwarancji. Jak mówisz, zespół może być gorszy niż poszczególne modele. Na przykład wzięcie średniej z prawdziwego modelu i złego modelu dałoby dość zły model.

Średnia z modeli będzie poprawą tylko wtedy, gdy modele będą (nieco) niezależne od siebie. Na przykład, w workowaniu, każdy model jest zbudowany z losowego podzbioru danych, więc wbudowana jest pewna niezależność. Lub modele mogą być budowane przy użyciu różnych kombinacji cech, a następnie łączone przez uśrednianie.k

Również uśrednianie modelu działa dobrze tylko wtedy, gdy poszczególne modele mają dużą wariancję. Dlatego losowy las jest budowany przy użyciu bardzo dużych drzew. Z drugiej strony uśrednienie szeregu modeli regresji liniowej nadal daje model liniowy, który prawdopodobnie nie będzie lepszy niż modele, z którymi zacząłeś (wypróbuj!)

Inne metody zespołowe, takie jak wzmacnianie i mieszanie, działają, biorąc dane wyjściowe z poszczególnych modeli, wraz z danymi treningowymi, jako dane wejściowe do większego modelu. W tym przypadku nie jest zaskakujące, że często działają one lepiej niż poszczególne modele, ponieważ w rzeczywistości są bardziej skomplikowane i nadal korzystają z danych treningowych.


Czy nie masz na myśli, że RF wykorzystuje dużą liczbę drzew, aby osiągnąć dużą wariancję? Spodziewałbym się, że gdy drzewa będą rosły, będą obejmowały większość funkcji, a wariancja między modelami zmniejszy się.
Itamar,

Nie, @Flounderer jest poprawny. Drzewa decyzyjne nazywane są modelami niestabilnymi. Jeśli nieznacznie zmienisz dane, otrzymasz bardzo różne drzewa. Losowe lasy są środkiem do ich stabilizacji. Jeśli trenujesz dwa RF z nieco różnymi próbkami danych, będą one wytwarzać podobne modele.
Ricardo Cruz,

„uśrednianie szeregu modeli regresji liniowej wciąż daje model liniowy” <- co masz na myśli przez uśrednianie tutaj? Również o jakiej wariancji mówisz?
Taylor

6

W twoim przykładzie zespół dwóch modeli może być gorszy niż sam model. Ale twój przykład jest sztuczny, generalnie budujemy więcej niż dwa w naszym zespole.

Nie ma absolutnej gwarancji, że model zestawu działa lepiej niż pojedynczy model, ale jeśli zbudujesz wiele z nich, a twój indywidualny klasyfikator jest słaby . Ogólna wydajność powinna być lepsza niż w przypadku pojedynczego modelu.

W uczeniu maszynowym szkolenie wielu modeli zwykle przewyższa szkolenie jednego modelu. To dlatego, że masz więcej parametrów do dostrojenia.


2

Chcę po prostu rzucić coś, co rzadko jest omawiane w tym kontekście, i powinno dać ci do myślenia.

Zespół współpracuje również z ludźmi!

Zaobserwowano, że uśrednianie ludzkich prognoz daje lepsze prognozy niż jakakolwiek indywidualna prognoza. Jest to znane jako mądrość tłumu.

Teraz możesz argumentować, że dzieje się tak, ponieważ niektóre osoby mają różne informacje, więc skutecznie uśredniasz informacje. Ale nie, dotyczy to nawet takich zadań, jak zgadywanie liczby ziaren w słoiku.

Napisano na ten temat wiele książek i eksperymentów, a zjawisko to nadal zastanawia badaczy.

To powiedziawszy, jak zauważył @Flunderer, rzeczywiste korzyści pochodzą z tak zwanych niestabilnych modeli, takich jak drzewa decyzyjne, w których każda obserwacja zwykle ma wpływ na granicę decyzji. Bardziej stabilne, takie jak SVM, nie zyskują tak wiele, ponieważ ponowne próbkowanie zwykle nie wpływa znacząco na wektory wsparcia.


1
Dlatego zawsze starałem się zatrudniać ludzi, którzy nie byli tacy jak ja. Dobra rada dla budowania elastycznych i efektywnych zespołów.
Matthew Drury,

0

Jest całkiem możliwe, że pojedyncze modele są lepsze niż zespoły.

Nawet jeśli w twoich danych nie ma punktów, w których niektóre z twoich modeli są zawyżone, a niektóre są niedoceniane (w takim przypadku możesz mieć nadzieję, że przeciętny błąd zostanie zanegowany), niektóre z najbardziej popularnych funkcji strat (jak średnia strata do kwadratu) są karalne pojedyncze duże odchylenia więcej niż pewna liczba umiarkowanych odchyleń. Jeśli uśrednione modele są nieco inne, możesz mieć nadzieję, że wariancja stanie się „mniejsza”, ponieważ średnia zabija wyjątkowe odchylenia. Prawdopodobnie jest to wytłumaczalne z że .


0

Tak, może tak być, ale pomysł na zestawienie polega na trenowaniu prostszych modeli, aby uniknąć nadmiernego dopasowania, jednocześnie rejestrując różne cechy danych z różnych zestawów. Oczywiście nie ma gwarancji, że model zespołu przewyższy pojedynczy model podczas treningu z tymi samymi danymi treningowymi. Lepszą wydajność można uzyskać, łącząc modele zespołów i wzmacniając (np. AdaBoost). Poprzez zwiększenie trenujesz każdy kolejny model zestawu, przypisując wagi do każdego punktu danych i aktualizując je zgodnie z błędem. Pomyśl więc o tym jak o algorytmie opadania współrzędnych, pozwala on na obniżenie błędu treningu z każdą iteracją przy zachowaniu stałej średniej złożoności modelu. Ogólnie wpływa to na wydajność. Jest wiele

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.