Gdzie i dlaczego lśni głębokie uczenie się?

W dzisiejszych czasach, gdy wszystkie media rozmawiają o tym, jak głęboko się uczyć, czytam kilka podstawowych rzeczy na ten temat. Właśnie odkryłem, że jest to kolejna metoda uczenia maszynowego do nauki wzorców z danych. Ale moje pytanie brzmi: gdzie świeci i dlaczego ta metoda świeci? Dlaczego teraz wszyscy o tym mówią? To o co chodzi w tym zamieszaniu?

— Jack Twain
źródło

Spójrz na jakościowe wykłady na YouTubie Geoffa Hintona i Andrew Nga, aby uzyskać prosty przegląd tego, dlaczego jest tak dobry.

— Jase

Odpowiedzi:

Główne rzekome korzyści:

(1) Nie trzeba ręcznie opracowywać funkcji dla nieliniowych problemów z uczeniem się (oszczędzaj czas i skalowalność w przyszłości, ponieważ inżynieria ręczna jest przez niektórych postrzegana jako krótkoterminowe wsparcie zespołu)

(2) Wyuczone funkcje są czasem lepsze niż najlepsze ręcznie opracowane funkcje i mogą być tak złożone (widzenie komputerowe - np. Podobne do twarzy), że inżynieria zajęłaby zbyt dużo czasu.

(3) Potrafi wykorzystywać nieznakowane dane do wstępnego szkolenia sieci. Załóżmy, że mamy 1000000 obrazów bez etykiety i 1000 obrazów z etykietami. Możemy teraz radykalnie poprawić nadzorowany algorytm uczenia się poprzez wstępne szkolenie na 1000000 nieznakowanych obrazach z głębokim uczeniem się. Ponadto w niektórych domenach mamy tyle nieznakowanych danych, ale trudno jest znaleźć dane z etykietami. Algorytm, który może wykorzystać te nieznakowane dane do poprawy klasyfikacji, jest cenny.

(4) Empirycznie zniszczył wiele testów porównawczych, w których zauważano jedynie stopniową poprawę do czasu wprowadzenia metod głębokiego uczenia się.

(5) Ten sam algorytm działa w wielu obszarach z surowymi (być może z niewielkimi danymi wstępnymi).

(6) Ciągle się poprawia, ponieważ do sieci trafia więcej danych (przy założeniu stacjonarnych dystrybucji itp.).

— Jase
źródło

Kolejnym ważnym punktem oprócz powyższego (nie mam wystarczającej liczby przedstawicieli, aby dodać go tylko jako komentarz), jest to, że jest to model generatywny (przynajmniej sieci głębokiej wiary), a zatem można próbkować z wyuczonych dystrybucji - może to mają pewne główne zalety w niektórych aplikacjach, w których chcesz generować syntetyczne dane odpowiadające wyuczonym klasom / klastrom.

— Alex McMurray
źródło

Nie jest to ogólna właściwość głębokiego uczenia się, ale konkretnego modelu, o którym mowa. Np. Możesz próbkować z Gaussa, ale nie z regresji logistycznej. Możesz także próbkować z różnych modeli głębokiego uczenia się, np. Sieci głębokiej wiary, jak powiedziałeś, głębokie maszyny Boltzmanna, głębokie utajone modele Gaussa itp. Ale nie możesz próbkować z sieci, które były używane we wszystkich imponujących Aplikacje.

— bayerj

... Dlaczego nie możesz pobrać próbki z regresji logistycznej?

— Hong Ooi

Biorąc pod uwagę model LR

p (c | x)

$p(c|x)$ , możesz próbkować klasę uwarunkowaną na wejściu. Ale nie można próbkować danych wejściowych. Jest to zatem raczej rozróżnienie dyskryminacyjne / generatywne.

— bayerj

To samo dotyczy modelu regresji gaussowskiej, jeśli przez to rozumiesz podstawową regresję liniową.

— Hong Ooi