Na „sile” słabych uczniów


22

Mam kilka ściśle powiązanych pytań dotyczących słabych uczniów uczących się w zespole (np. Przyspieszenie).

  1. Może to zabrzmieć głupio, ale jakie są zalety korzystania ze słabych w porównaniu z silnymi uczniami? (np. dlaczego nie wzmocnić za pomocą „silnych” metod uczenia się?)
  2. Czy istnieje jakaś „optymalna” siła dla słabych uczniów (np. Przy zachowaniu wszystkich pozostałych parametrów zespołu)? Czy jest „słaby punkt”, jeśli chodzi o ich siłę?
  3. Jak możemy zmierzyć siłę słabego ucznia w stosunku do siły wynikowej metody zespolonej. Jak mierzymy ilościowo marginalne korzyści płynące z używania zespołu?
  4. Jak porównujemy kilka słabych algorytmów uczenia się, aby zdecydować, który z nich zastosować dla danej metody zespolonej?
  5. Jeśli dana metoda zespołowa pomaga słabszym klasyfikatorom bardziej niż mocnym, to jak możemy powiedzieć, że dany klasyfikator jest już „zbyt silny”, aby przynieść jakiekolwiek znaczące korzyści przy jego wzmocnieniu?

Odpowiedzi:


16

Może to być bardziej w duchu pakowania, ale jednak:

  • Jeśli naprawdę masz silnego ucznia, nie musisz go poprawiać za pomocą żadnego zespołu.
  • Powiedziałbym ... nieistotne. W mieszaniu i bagatelizowaniu w trywialny sposób, przy zwiększaniu wydajności zbyt silny klasyfikator może prowadzić do pewnych naruszeń konwergencji (tj. Szczęśliwe przewidywanie może sprawić, że następna iteracja pozwoli przewidzieć czysty hałas, a tym samym obniżyć wydajność), ale zwykle jest to naprawiane w kolejnych iteracjach.
  • Znowu nie jest to prawdziwy problem. Istotą tych metod jest

    1. zmusza częściowych klasyfikatorów do głębszego spojrzenia na problem.
    2. łączą swoje prognozy, aby tłumić hałas i wzmacniać sygnał.

    1) wymaga pewnej uwagi w zakresie wzmocnienia (tj. Dobrego schematu wzmocnienia, dobrze zachowującego się częściowego ucznia - ale należy to głównie oceniać na podstawie eksperymentów dotyczących całego wzmocnienia), 2) w pakowaniu i mieszaniu (głównie jak zapewnić brak korelacji między uczniami i nie rozbijaj całego zestawu). Dopóki jest to OK, dokładność częściowego klasyfikatora stanowi problem trzeciego rzędu.


Dzięki @mbq. Czy powyższe oznacza, że ​​słabi klasyfikatorzy zwykle odnoszą większe korzyści z metod złożonych niż mocne? (tj. wzmocnienie pomaga słabszym klasyfikatorom niż silnym). W tym sensie, skąd wiemy, że dany klasyfikator jest już wystarczająco silny dla określonej metody zespolonej? (np. jak możesz z grubsza powiedzieć, że masz silnego ucznia, który nie skorzysta na poprawie?)
Amelio Vazquez-Reina

1
Raczej tylko słabe klasyfikatory dają pole do poprawy. Ogólnie rzecz biorąc, siła jest cechą abstrakcyjną i tak naprawdę nie możemy jej zmierzyć. Jedynym pewnym testem jest po prostu wykonanie eksperymentu i sprawdzenie, czy zestawienie znacząco zwiększa wydajność. Jeśli tak, klasyfikator był słaby. Jeśli nie, cóż, nadal nic nie wiemy.

11

Po pierwsze, pojęcia „słaby” i „silny” są jedynie słabo zdefiniowane. Z mojego punktu widzenia muszą być zdefiniowane względem optymalnego klasyfikatora Bayesa, który jest celem każdego algorytmu szkoleniowego. Mając to na uwadze, moja odpowiedź na trzy punkty jest następująca.

  1. Obliczeniowy tak, jak go widzę. Większość słabych uczniów, których znam, jest szybka obliczeniowo (a poza tym nie warta rozważenia). Ważnym punktem uczenia się w zespole jest właśnie to, że możemy łączyć proste i szybkie, ale nie tak dobre, uczniów i poprawić poziom błędu. Jeśli użyjemy silniejszych (i bardziej wymagających obliczeniowo) uczniów, miejsce na ulepszenia stają się mniejsze, ale koszty obliczeniowe stają się większe, co sprawia, że ​​stosowanie metod zespołowych jest mniej interesujące. Co więcej, pojedynczy silny uczeń może być łatwiejszy do interpretacji. Jednak to, co jest słabe, a co silne, zależy od problemu i optymalnej szybkości Bayesa, którą próbujemy osiągnąć. Dlatego jeśli uczeń, który jest często uważany za silny, nadal pozostawia miejsce na ulepszenia podczas jego zwiększania, a zwiększanie jest wykonalne obliczeniowo, to wykonaj przyspieszenie ...
  2. Będzie to zależeć od kryteriów używanych do pomiaru „optymalnego”. Jeśli chodzi o poziom błędu, powiedziałbym „nie” (z zadowoleniem przyjmuję wszelkie poprawki, jeśli inni mają inne doświadczenia). Być może pod względem prędkości, ale wyobrażam sobie, że jest to wysoce zależne od problemu. Przepraszam, nie znam literatury na ten temat.
  3. ?
  4. Krzyżowa walidacja, krzyżowa walidacja, krzyżowa walidacja. Jak każde inne porównanie metod treningu w celu prognozowania, potrzebujemy obiektywnych oszacowań błędu uogólnienia dla porównania, które można osiągnąć przez odłożenie zestawu danych testowych lub przybliżenie go poprzez walidację krzyżową.

Dzięki @NRH, to bardzo pomocne. Trzecie pytanie podzieliłem na dwa osobne, ponieważ myślę, że prawdopodobnie wymagają one różnych odpowiedzi.
Amelio Vazquez-Reina

Czy istnieje sposób, aby dowiedzieć się, jak blisko klasyfikator do optymalnego klasyfikatora Bayesa? Jeśli jest już wystarczająco blisko, nie możemy go poprawić.
highBandWidth

@highBandWidth, nie jest możliwe ustalenie stawki Bayesa. Jest to wielkość teoretyczna, która opiera się na nieznanym rozkładzie. Założenia teoretyczne mogą dawać dolne i górne (asymptotyczne) granice, a przy użyciu weryfikacji krzyżowej lub niezależnych danych testowych możliwe jest dokładne oszacowanie górnych granic. Ale jeśli nie znasz rozkładu, nie można stwierdzić, czy takie górne granice są wąskie, czy pozostawić pole do poprawy.
NRH,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.