Wzór Vapnika – Chervonenkisa (VC) dla sieci neuronowych zawiera się w przedziale od do , przy czym w najgorszym przypadku, gdzie jest liczbą krawędzi i to liczba węzłów. Liczba próbek treningowych potrzebnych do uzyskania silnej gwarancji uogólnienia jest liniowa z wymiarem VC.
Oznacza to, że w przypadku sieci z miliardami brzegów, tak jak w przypadku udanych modeli głębokiego uczenia, zestaw danych szkoleniowych potrzebuje miliardów próbek szkoleniowych w najlepszym przypadku, a nawet biliardów w najgorszym przypadku. Największe zestawy szkoleniowe mają obecnie około stu miliardów próbek. Ponieważ nie ma wystarczającej ilości danych szkoleniowych, mało prawdopodobne jest, aby modele głębokiego uczenia się generalizowały. Zamiast tego prześcigają się w danych treningowych. Oznacza to, że modele nie będą dobrze działać na danych niepodobnych do danych szkoleniowych, co jest niepożądaną właściwością uczenia maszynowego.
Biorąc pod uwagę niezdolność do głębokiego uczenia się do uogólnienia, zgodnie z analizą wymiarową VC, dlaczego wyniki głębokiego uczenia się są tak przereklamowane? Samo posiadanie wysokiej dokładności w niektórych zestawach danych nie znaczy wiele samo w sobie. Czy jest coś wyjątkowego w architekturze głębokiego uczenia się, która znacznie zmniejsza wymiar VC?
Jeśli nie uważasz, że analiza wymiaru VC jest odpowiednia, proszę przedstawić dowody / wyjaśnienia, że głębokie uczenie się jest uogólniające i nie jest zbyt dobre. Czyli ma dobre przywołanie ORAZ precyzję, czy po prostu dobre przywołanie? 100% wycofania jest banalne, podobnie jak 100% precyzji. Uzyskanie obu wartości zbliżonych do 100% jest bardzo trudne.
Jako przeciwny przykład, oto dowód na to, że głębokie uczenie się jest zbyt dobre. Model overfit można łatwo oszukać, ponieważ zawiera on deterministyczny / stochastyczny hałas. Poniższy obraz przedstawia przykład nadmiernego dopasowania.
Zobacz także odpowiedzi na to pytanie w rankingu poniżej, aby zrozumieć problemy z modelem overfit pomimo dobrej dokładności danych testowych.
Niektórzy odpowiedzieli, że regularyzacja rozwiązuje problem dużego wymiaru VC. Zobacz to pytanie do dalszej dyskusji.