Jestem bardzo spóźniony do gry, ale chciałem opublikować, aby odzwierciedlić niektóre obecne zmiany w splotowych sieciach neuronowych w odniesieniu do pomijania połączeń .
Zespół Microsoft Research niedawno wygrał konkurs ImageNet 2015 i opublikował raport techniczny Deep Residual Learning for Image Recognition opisujący niektóre z ich głównych pomysłów.
Jednym z ich głównych wkładów jest koncepcja głębokich warstw resztkowych . Te głębokie warstwy resztkowe wykorzystują połączenia pomijane . Korzystając z tych głębokich warstw rezydualnych, byli w stanie wytresować 152-warstwową sieć konwekcyjną dla ImageNet 2015. Przeszkolili nawet ponad 1000-warstwową sieć konwekcyjną dla CIFAR-10.
Problem, który ich motywował, jest następujący:
Kiedy głębsze sieci są w stanie rozpocząć konwergencję, ujawniono problem degradacji : wraz ze wzrostem głębokości sieci dokładność zostaje nasycona (co może nie dziwić), a następnie gwałtownie spada. Nieoczekiwanie taka degradacja nie jest spowodowana nadmiernym dopasowaniem , a dodanie większej liczby warstw do odpowiednio głębokiego modelu prowadzi do większego błędu treningu ...
Pomysł polega na tym, że jeśli weźmiesz „płytką” sieć i po prostu ustawisz na większej liczbie warstw, aby utworzyć głębszą sieć, wydajność głębszej sieci powinna być co najmniej tak dobra, jak sieć płytka, ponieważ głębsza sieć może nauczyć się dokładnie płytkiej sieci sieć, ustawiając nowe ułożone w stos warstwy na warstwy tożsamości (w rzeczywistości wiemy, że jest to bardzo mało prawdopodobne, gdyby nie było żadnych priorytetów architektonicznych ani aktualnych metod optymalizacji). Zauważyli, że tak nie jest i błąd szkolenia czasami się pogarszał, gdy układali więcej warstw na płytszym modelu.
To zmotywowało ich do skorzystania z pominięcia połączeń i użycia tak zwanych głębokich warstw resztkowych, aby pozwolić ich sieci na naukę odchyleń od warstwy tożsamości, stąd określenie „ rezydualny” , „rezydualny” odnosi się tutaj do różnicy od tożsamości.
Implementują pomijanie połączeń w następujący sposób:
fa( x ) : = H ( x ) - xfa( x ) + x = H ( x )fa( x )H (x)
W ten sposób użycie głębokich warstw rezydualnych za pośrednictwem połączeń przeskoku pozwala ich głębokim sieciom uczyć się przybliżonych warstw tożsamości, jeśli rzeczywiście jest to optymalne lub lokalnie optymalne. Rzeczywiście twierdzą, że ich pozostałe warstwy:
Pokazujemy na podstawie eksperymentów (ryc. 7), że wyuczone funkcje resztkowe generalnie mają małe odpowiedzi
Dlaczego dokładnie to działa, nie mają dokładnej odpowiedzi. Jest bardzo mało prawdopodobne, aby warstwy tożsamości były optymalne, ale uważają, że użycie tych warstw resztkowych pomaga w rozwiązaniu problemu i że łatwiej jest nauczyć się nowej funkcji, biorąc pod uwagę odniesienie / linię bazową porównania do mapowania tożsamości, niż nauczyć się jednego „od zera” bez korzystania z linii bazowej tożsamości. Kto wie. Ale pomyślałem, że to byłaby miła odpowiedź na twoje pytanie.
Nawiasem mówiąc, z perspektywy czasu: odpowiedź sashkello jest jeszcze lepsza, prawda?