W pełni połączone (przynajmniej warstwa po warstwie z więcej niż 2 ukrytymi warstwami) sieci backprop są uniwersalnymi uczniami. Niestety, często są powolne w nauce i mają tendencję do nadmiernego dopasowania lub mają niezręczne uogólnienia.
Po wygłupianiu się z tymi sieciami zauważyłem, że przycinanie niektórych krawędzi (tak, że ich waga jest zerowa i niemożliwa do zmiany) powoduje, że sieci uczą się szybciej i lepiej uogólniają. Czy jest tego powód? Czy to tylko z powodu zmniejszenia wymiarów przestrzeni wyszukiwania ciężarów, czy może jest to bardziej subtelny powód?
Czy też lepsze uogólnienie jest artefaktem „naturalnych” problemów, na które patrzę?