Jakie modyfikowalne elementy systemu uczenia się są odpowiedzialne za jego sukces lub porażkę? Jakie zmiany w nich poprawiają wydajność? Nazywa się to podstawowym problemem przydziału kredytów (Minsky, 1963). Istnieją ogólne metody przypisywania punktów dla uniwersalnych rozwiązywania problemów, które są optymalne czasowo w różnych sensach teoretycznych (rozdz. 6.8). Obecne badanie skupi się jednak na węższym, ale obecnie ważnym handlowo, podpolu Deep Learning (DL) w sztucznych sieciach neuronowych (NN).
Standardowa sieć neuronowa (NN) składa się z wielu prostych połączonych procesorów zwanych neuronami, z których każdy wytwarza sekwencję aktywacji o wartościach rzeczywistych. Neurony wejściowe są aktywowane przez czujniki postrzegające środowisko, inne neurony są aktywowane przez ważone połączenia z wcześniej aktywnych neuronów (szczegóły w Rozdziale 2). Niektóre neurony mogą wpływać na środowisko, wywołując działania. Nauka lub zaliczenie polega na znalezieniu ciężarów, które sprawiają, że NN wykazuje pożądane zachowanie, takie jak prowadzenie samochodu. W zależności od problemu i sposobu połączenia neuronów takie zachowanie może wymagać długich łańcuchów przyczynowych etapów obliczeniowych (rozdział 3), w których każdy etap przekształca (często w sposób nieliniowy) agregację aktywacji sieci. Głębokie uczenie się polega na dokładnym przypisywaniu punktów na wielu takich etapach.
Modele płytkie NN z kilkoma takimi etapami istnieją od wielu dziesięcioleci, jeśli nie stuleci (rozdział 5.1). Modele z kilkoma kolejnymi nieliniowymi warstwami neuronów pochodzą co najmniej z lat 60. (Sec. 5.3) i 1970. (Sec. 5.5). W latach 60. i 70. XX wieku opracowano wydajną metodę zejścia gradientowego do opartego na nauczycielach nadzorowanego uczenia się (SL) w dyskretnych, zróżnicowanych sieciach o dowolnej głębokości, zwanych propagacją wsteczną (BP), i zastosowano je w NN w 1981 r. (Sec. 5.5). Jednak szkolenie oparte na BP głębokich NN o wielu warstwach okazało się trudne w praktyce pod koniec lat 80. (rozdział 5.6), a stało się wyraźnym przedmiotem badań na początku lat 90. (rozdział 5.9). DL stało się praktycznie wykonalne w pewnym stopniu dzięki pomocy Unsupervised Learning (UL), np. Sec. 5.10 (1991), Sec. 5.15 (2006). Lata 90. i 2000. przyniosły również wiele ulepszeń w zakresie czysto nadzorowanego DL (rozdział 5). W nowym tysiącleciu głębokie sieci NN w końcu przyciągnęły szeroką uwagę, głównie poprzez lepsze wyniki w alternatywnych metodach uczenia maszynowego, takich jak maszyny jądra (Vapnik, 1995; Scholkopf i in., 1998) w wielu ważnych zastosowaniach. W rzeczywistości od 2009 r. Nadzorowane głębokie NN wygrały wiele oficjalnych międzynarodowych konkursów rozpoznawania wzorców (np. Sek. 5.17, 5.19, 5.21, 5.22), osiągając pierwsze nadludzkie wizualne rozpoznawanie wzorców w ograniczonych domenach (Sec. 5.19, 2011). Głębokie NN stały się również istotne dla bardziej ogólnej dziedziny uczenia się przez wzmacnianie (RL), gdzie nie ma nauczyciela nadzorującego (sekcja 6). głównie przez lepsze wyniki niż alternatywne metody uczenia maszynowego, takie jak maszyny jądra (Vapnik, 1995; Scholkopf i in., 1998) w wielu ważnych zastosowaniach. W rzeczywistości od 2009 r. Nadzorowane głębokie NN wygrały wiele oficjalnych międzynarodowych konkursów rozpoznawania wzorców (np. Sek. 5.17, 5.19, 5.21, 5.22), osiągając pierwsze nadludzkie wizualne rozpoznawanie wzorców w ograniczonych domenach (Sec. 5.19, 2011). Głębokie NN stały się również istotne dla bardziej ogólnej dziedziny uczenia się przez wzmacnianie (RL), gdzie nie ma nauczyciela nadzorującego (sekcja 6). głównie przez lepsze wyniki niż alternatywne metody uczenia maszynowego, takie jak maszyny jądra (Vapnik, 1995; Scholkopf i in., 1998) w wielu ważnych zastosowaniach. W rzeczywistości od 2009 r. Nadzorowane głębokie NN wygrały wiele oficjalnych międzynarodowych konkursów rozpoznawania wzorców (np. Sek. 5.17, 5.19, 5.21, 5.22), osiągając pierwsze nadludzkie wizualne rozpoznawanie wzorców w ograniczonych domenach (Sec. 5.19, 2011). Głębokie NN stały się również istotne dla bardziej ogólnej dziedziny uczenia się przez wzmacnianie (RL), gdzie nie ma nauczyciela nadzorującego (sekcja 6). osiągnięcie pierwszego nadludzkiego wizualnego rozpoznawania wzorów skutkuje ograniczonymi domenami (Sec. 5.19, 2011). Głębokie NN stały się również istotne dla bardziej ogólnej dziedziny uczenia się przez wzmacnianie (RL), gdzie nie ma nauczyciela nadzorującego (sekcja 6). osiągnięcie pierwszego nadludzkiego wizualnego rozpoznawania wzorów skutkuje ograniczonymi domenami (Sec. 5.19, 2011). Głębokie NN stały się również istotne dla bardziej ogólnej dziedziny uczenia się przez wzmacnianie (RL), gdzie nie ma nauczyciela nadzorującego (sekcja 6).
Z drugiej strony nie jestem pewien, czy koniecznie opłaca się zbudować systematykę wykluczających się wzajemnie segmentów strategii uczenia maszynowego. Myślę, że możemy powiedzieć, że istnieją perspektywy, z których modele można postrzegać jako sieci neuronowe. Nie sądzę, aby ta perspektywa była najlepsza lub przydatna we wszystkich kontekstach. Na przykład nadal planuję odnosić się do przypadkowych lasów i drzew o podwyższonym gradiencie jako „zestawach drzew” zamiast abstrahować od ich różnic i nazywać je „drzewami sieci neuronowej”. Co więcej, Schmidhuber odróżnia NN od maszyn jądra - mimo że maszyny jądra mają pewne powiązania z NN - kiedy pisze: „W nowym tysiącleciu głębokie sieci NN w końcu przyciągnęły szeroką uwagę, głównie przez lepsze wyniki niż alternatywne metody uczenia maszynowego, takie jak maszyny jądra ... w wielu ważnych zastosowaniach. „