Jako zrzeczenie się, pracuję nad sieciami neuronowymi w swoich badaniach, ale generalnie używam stosunkowo małych, płytkich sieci neuronowych, a nie naprawdę głębokich sieci w najnowocześniejszych badaniach, które przytaczasz w swoim pytaniu. Nie jestem ekspertem od dziwactw i osobliwości bardzo głębokich sieci i oddam się komuś, kto jest.
Po pierwsze, zasadniczo nie ma powodu, aby w ogóle potrzebować głębokich sieci neuronowych. Wystarczająco szeroka sieć neuronowa z tylko jedną ukrytą warstwą może aproksymować dowolną (rozsądną) funkcję przy wystarczającej ilości danych treningowych. Istnieje jednak kilka trudności z użyciem wyjątkowo szerokiej, płytkiej sieci. Głównym problemem jest to, że te bardzo szerokie, płytkie sieci są bardzo dobre w zapamiętywaniu, ale nie tak dobre w uogólnieniu . Tak więc, jeśli trenujesz sieć z każdą możliwą wartością wejściową, super szeroka sieć może ostatecznie zapamiętać odpowiednią wartość wyjściową, którą chcesz. Ale to nie jest przydatne, ponieważ dla każdego praktycznego zastosowania nie będziesz miał wszystkich możliwych wartości wejściowych do trenowania.
Zaletą wielu warstw jest to, że mogą uczyć się funkcji na różnych poziomach abstrakcji . Na przykład, jeśli wytrenujesz głęboką splotową sieć neuronową do klasyfikowania obrazów, przekonasz się, że pierwsza warstwa będzie trenować się w zakresie rozpoznawania bardzo podstawowych rzeczy, takich jak krawędzie, kolejna warstwa wyszkoli się w zakresie rozpoznawania zbiorów krawędzi, takich jak kształty, następna warstwa będzie się uczyć rozpoznawania zbiorów kształtów, takich jak oczy lub nosy, a kolejna warstwa nauczy się funkcji wyższego rzędu, takich jak twarze. Wiele warstw jest znacznie lepszych w uogólnianiu, ponieważ uczą się wszystkich pośrednich cech między surowymi danymi a klasyfikacją wysokiego poziomu.
To wyjaśnia, dlaczego warto korzystać z głębokiej sieci zamiast z bardzo szerokiej, ale płytkiej sieci. Ale dlaczego nie bardzo głęboka, bardzo szeroka sieć? Myślę, że odpowiedź brzmi: chcesz, aby Twoja sieć była jak najmniejsza, aby dawać dobre wyniki. Gdy zwiększasz rozmiar sieci, tak naprawdę wprowadzasz więcej parametrów, których Twoja sieć musi się nauczyć, a tym samym zwiększasz szanse na przeregulowanie. Jeśli zbudujesz bardzo szeroką, bardzo głęboką sieć, ryzykujesz, że każda warstwa po prostu zapamięta, co chcesz, aby uzyskać dane wyjściowe, i powstanie sieć neuronowa, która nie uogólnia się na nowe dane.
Oprócz widma nadmiernego dopasowania, im szersza sieć, tym dłużej będzie trenować . Głębokie sieci już teraz mogą być bardzo kosztowne obliczeniowo, więc istnieje silna zachęta, aby uczynić je wystarczająco szerokimi, aby działały dobrze, ale nie szerszymi.