Czy faktycznie brakuje podstawowej teorii dotyczącej głębokiego uczenia się?

10

Słyszałem kilka razy, że jednym z podstawowych / otwartych problemów głębokiego uczenia się jest brak „ogólnej teorii” na ten temat, ponieważ tak naprawdę nie wiemy, dlaczego głębokie uczenie się działa tak dobrze. Nawet strona Wikipedii na temat głębokiego uczenia się ma podobne komentarze . Czy takie oświadczenia są wiarygodne i reprezentatywne dla stanu danej dziedziny?

deep-learning

— heleone
źródło

5

Istnieje artykuł zatytułowany Dlaczego Deep Learning działa tak dobrze? .

„Jednak wciąż nie jest w pełni zrozumiałe, dlaczego głębokie uczenie działa tak dobrze. W przeciwieństwie do algorytmów GOFAI („ good old-fashioned AI ”), które są ręcznie tworzone i w pełni rozumiane analitycznie, wiele algorytmów wykorzystujących sztuczne sieci neuronowe jest rozumianych tylko w poziom heurystyczny, w którym empirycznie wiemy, że niektóre protokoły szkoleniowe wykorzystujące duże zbiory danych przyniosą doskonałe wyniki. Przypomina to sytuację w ludzkich mózgach: wiemy, że jeśli szkolimy dziecko zgodnie z określonym programem nauczania, nauczy się pewnych umiejętności - ale brakuje nam głębokiego zrozumienia, w jaki sposób jej mózg to osiąga ”.

— BlindKungFuMaster
źródło

3

Tak jest w większości przypadków. Modele do głębokiego uczenia się, nawet te płytkie, takie jak piętrowe auto-kodery i sieci neuronowe, nie są w pełni zrozumiałe. Staramy się zrozumieć, co dzieje się z procesem optymalizacji dla tak złożonej funkcji intensywnie zmiennej. Ale to trudne zadanie.

Jednym ze sposobów wykorzystywanych przez naukowców do odkrywania, jak działa głębokie uczenie się, jest stosowanie modeli generatywnych. Najpierw szkolimy algorytm uczenia się i upośledzamy go systematycznie, prosząc go o generowanie przykładów. Obserwując wygenerowane przykłady, będziemy mogli wywnioskować, co dzieje się w algorytmie na bardziej znaczącym poziomie. Jest to bardzo podobne do używania inhibitorów w neuronauce, aby zrozumieć, do czego wykorzystywane są różne składniki mózgu. Na przykład wiemy, że kora wzrokowa jest tam, gdzie jest, ponieważ jeśli ją uszkodzimy, stracisz wzrok.

— JahKnows
źródło

2

Prawdopodobnie zależy to od tego, co należy rozumieć przez „teorię podstawową”, ale nie brakuje rygorystycznej teorii ilościowej w głębokim uczeniu się, z których niektóre są bardzo ogólne, pomimo twierdzeń przeciwnych.

Dobrym przykładem jest obejście metod uczenia się opartych na energii. Patrz np. Praca Neal & Hinton na temat wnioskowania wariacyjnego i darmowej energii: http://www.cs.toronto.edu/~fritz/absps/emk.pdf

Również ten przewodnik po minimalizacji zużycia energii jako „wspólnej strukturze teoretycznej wielu modeli uczenia się” autorstwa Yanna LeCuna i współpracowników: http://yann.lecun.com/exdb/publis/pdf/lecun-06.pdf

Ogólne ramy dla modeli opartych na energii autorstwa Scelliera i Bengio: https://arxiv.org/pdf/1602.05179.pdf

Istnieje również wcześniejsza praca Hinton i Sejnowski, która pokazuje analitycznie, że konkretna sieć inspirowana Hopfieldem + algorytm uczenia bez nadzoru może aproksymować optymalizację Bayesa: https://papers.cnl.salk.edu/PDFs/Optimal%20Perceptual%20Inference%201983 -646.pdf

Istnieje wiele prac łączących głębokie uczenie się z neurologią teoretyczną, takich jak poniższe, które pokazują, że efekty propagacji wstecznej można osiągnąć w biologicznie uzasadnionych architekturach neuronowych: https://arxiv.org/pdf/1411.0247.pdf

Oczywiście istnieje wiele otwartych pytań i nie ma jednej, kontrowersyjnej ujednoliconej teorii, ale to samo można powiedzieć o prawie każdej dziedzinie.

— a.kief
źródło

1

Twój cytat z Wikipedii jest wątpliwy, ponieważ głębokie uczenie się jest dobrze rozwinięte. W rzeczywistości jest [citation needed]na stronie Wikipedii.

Spójrz na https://github.com/terryum/awesome-deep-learning-papers . Link zawiera około 100 artykułów. Czy nadal uważasz, że w głębokim uczeniu brakuje „ogólnej teorii”?

Tak. Głębokie uczenie się jest trudne do zrozumienia, ponieważ jest to bardzo skomplikowany model. Ale to nie znaczy, że nie mamy teorii.

Może limepaczka i papier: „Dlaczego warto ci ufać?”: Wyjaśnienie prognoz dowolnego klasyfikatora pomoże ci. Artykuł sugeruje, że powinniśmy być w stanie przybliżyć lokalnie skomplikowany model (w tym głębokie uczenie się) za pomocą znacznie prostszego modelu.

— Witaj świecie
źródło

3

Wiele interesujących aplikacji nie oznacza, że aplikacje te zostały opracowane w wyniku rygorystycznego procesu. „Hmm… może powinienem zamiast tego wypróbować 8 warstw? Ach… to działa! Świetnie, opublikujmy wyniki”.

— Chris Anderson,

2

„Głębokie uczenie się jest trudne do zrozumienia, ponieważ jest to bardzo skomplikowany model. Ale to nie znaczy, że nie mamy teorii”. To prawda, ale też nie mają teorie. Literatura bardzo mało rozumie matematyczne techniki. Większość wyjaśnień dotyczących tego, jak i dlaczego działa głębokie uczenie się, opiera się na intuicji i empiryzmie, co jest w porządku, ale nie stanowi teorii imo.

— user27182,

0

Kluczowym pytaniem, które pozostaje w teorii głębokiego uczenia się, jest to, dlaczego tak ogromne modele (o wiele więcej parametrów niż punktów danych) nie pasują do zestawów danych, których używamy.

Klasyczna teoria oparta na miarach złożoności nie wyjaśnia zachowania praktycznych sieci neuronowych. Na przykład szacunki wymiaru VC dają puste granice uogólnienia. O ile mi wiadomo, najściślejsze (górne i dolne) granice wymiaru VC podano w [1] i są one rzędu liczby wag w sieci. Oczywiście ta najgorsza złożoność przypadku nie może wyjaśnić, w jaki sposób np. Duża resnet generalizuje się na CIFAR lub MNIST.

Ostatnio podjęto inne próby zapewnienia uogólnienia dla sieci neuronowych, na przykład poprzez odniesienie do jądra stycznej neuronowej lub różne normalne miary dotyczące wag. Odpowiednio okazało się, że nie mają one zastosowania do sieci o praktycznych rozmiarach i mają inne niezadowalające właściwości [2].

Istnieją pewne prace w ramach PAC Bayesa dla niepustych granic, np. [3]. Te konfiguracje wymagają jednak pewnej wiedzy o przeszkolonej sieci, a zatem różnią się smakiem od klasycznej analizy PAC.

Niektóre inne aspekty:

optymalizacja: jak uzyskać „dobre” rozwiązania z opadania gradientu na tak niewypukły problem? (Istnieje kilka odpowiedzi na to w najnowszej literaturze)
interpretowalność: czy możemy wyjaśnić na poziomie intuicyjnym, co sieć „myśli”? (Nie moja okolica)

(niekompletne) odniesienia:

— użytkownik27182
źródło

0

Chciałbym zaznaczyć, że nie ma dobrej teorii, dlaczego uczenie maszynowe działa ogólnie. Granice VC nadal zakładają model, ale rzeczywistość nie pasuje do żadnej z tych matematycznych ideałów. Ostatecznie, jeśli chodzi o aplikację, wszystko sprowadza się do wyników imperialnych. Nawet ilościowe podobieństwo między obrazami przy użyciu algorytmu zgodnego z intuicyjnym zrozumieniem ludzi jest naprawdę trudne

W każdym razie NN nie działa dobrze w pełni połączonej formie. Wszystkie udane sieci mają wbudowaną regulację w architekturze sieci (CNN, LSTM itp.).

— FourierFlux
źródło