Cel i określenie, kiedy użyć ukrytych warstw

9

W odpowiedzi na to pytanie ...

Staram się nauczyć, jak używać i tworzyć sieci neuronowe do moich badań, a jedna kwestia nieco mi ucieka. Zdaję sobie sprawę, że ukryte warstwy są nieco niezbędną częścią tego, jednak utknąłem w dwóch punktach, których moje odniesienia nie tłumaczą z satysfakcją:

Jaki jest dokładnie cel ukrytej warstwy?
Jak określić, ile ukrytych warstw użyć?

Z tego, co zbieram, chodzi o „modelowanie” funkcjonalności w świecie rzeczywistym, ale jeśli to możliwe, chciałbym trochę wyjaśnić.

ne.neural-evol

— ciebie
źródło

ale kiedyś mam wrażenie, że jeśli zwiększysz ukryte warstwy, wtedy pojawi się problem przeuczenia, więc bardzo trudno jest powiedzieć, ile ukrytych warstw możemy użyć? może to być metoda hit i trial.

9

Ukryta warstwa służy do zwiększenia ekspresji sieci. Pozwala sieci reprezentować bardziej złożone modele niż to możliwe bez ukrytej warstwy.

Wybór liczby ukrytych warstw lub, bardziej ogólnie, wybór architektury sieci, w tym również liczby ukrytych jednostek w ukrytych warstwach, to decyzje, które powinny być oparte na danych dotyczących szkolenia i weryfikacji krzyżowej. Powinieneś wyszkolić sieć z określoną liczbą węzłów (aby rozpocząć, wypróbuj jedną ukrytą warstwę, z jedną jednostką na jednostkę wejściową) i przetestuj model.

Aby uzyskać pomoc, zobacz ten link: http://www.faqs.org/faqs/ai-faq/neural-nets/part3/section-10.html

— Neal Tibrewala
źródło

1

ten link jest bardzo pomocny

— the_e

6

Zakładam, że omawiamy proste sieci neuronowe ze sprzężeniem zwrotnym, tj. Perceptrony wielowarstwowe.

Ukryta warstwa jest niezbędna do przechwytywania nieliniowych zależności między funkcjami danych a zmienną, którą próbujesz przewidzieć. Jeśli nie używasz ukrytej warstwy, równie dobrze możesz użyć regresji liniowej (dla regresji) lub regresji logistycznej (dla klasyfikacji).
Próbując różnych liczb ukrytych warstw i oceniając, jak dobrze działają, np. W ustawieniach weryfikacji krzyżowej. Zwykle wystarczy jedna ukryta warstwa, a wydajność NN jest optymalizowana przez zmianę jej rozmiaru i regularyzacji.

Pamiętaj, że mając więcej niż dwie ukryte warstwy, jesteś w głębokiej nauce i prawdopodobnie potrzebujesz niestandardowych algorytmów, aby trenować swoją sieć. Powodem jest to, że wsteczna propagacja wanilii cierpi z powodu problemu „zanikającego gradientu” w głębokich sieciach: gradient funkcji błędu zanika na warstwach blisko wejścia, a warstwy te prawie nie będą trenowane.

— Fred Foo
źródło