Czy głębokie sieci rezydualne należy postrzegać jako zbiór sieci?


12

Pytanie dotyczy architektury Deep Residual Networks ( ResNets ). Model, który zdobył pierwsze miejsce na „Large Scale Visual Recognition Challenge 2015” (ILSVRC2015) we wszystkich pięciu głównych torach:

  • Klasyfikacja ImageNet: „Ultra-deep” (cytat Yann) 152-warstwowe sieci
  • Wykrywanie ImageNet: 16% lepsze niż drugie
  • Lokalizacja ImageNet: 27% lepsza niż druga
  • Wykrywanie COCO: 11% lepsze niż drugie
  • Segmentacja COCO: 12% lepsza niż 2.

    źródło: konkursy MSRA @ ILSVRC i COCO 2015 (prezentacja, 2. slajd)

Ta praca jest opisana w następującym artykule:

Deep Residual Learning for Recognition Image (2015, PDF)


Zespół Microsoft Research (twórcy ResNets: Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun) w swoim artykule:

Mapowania tożsamości w głębokich sieciach rezydualnych (2016)

stwierdzamy, że głębia odgrywa kluczową rolę:

Otrzymujemy te wyniki za pomocą prostej, ale niezbędnej koncepcji - coraz głębiej. Wyniki te pokazują potencjał przekraczania granic głębokości ”.

Podkreślono to także w ich prezentacji (głębiej - lepiej):

- „Głębszy model nie powinien mieć wyższego błędu treningowego”.
- „Głębsze ResNets mają mniejszy błąd szkolenia, a także mniejszy błąd testu”.
- „W głębszych sieciach występuje niższy błąd.”
- „Wszystkie korzystają bardziej z głębszych funkcji - skumulowane korzyści!”
- „Głębiej jest jeszcze lepiej”.

Oto struktura reszty 34-warstwowej (w celach informacyjnych): wprowadź opis zdjęcia tutaj


Ale ostatnio znalazłem jedną teorię, która wprowadza nowatorską interpretację resztkowych sieci pokazującą, że są to zespoły wykładnicze:

Pozostałe sieci to wykładnicze zespoły stosunkowo płytkich sieci (2016)

Głębokie sieci określane są jako wiele płytkich sieci, których wyjścia są gromadzone na różnych głębokościach. W artykule jest zdjęcie. Załączam to z wyjaśnieniem:

wprowadź opis zdjęcia tutajPozostałe sieci są konwencjonalnie pokazane jako (a), co jest naturalną reprezentacją równania (1). Po rozwinięciu tego sformułowania do równania (6) otrzymujemy rozplątany widok 3-blokowej sieci resztkowej (b). Z tego widoku widać, że sieci rezydualne mają niejawne ścieżki O (2 ^ n) łączące wejście i wyjście oraz że dodanie bloku podwaja liczbę ścieżek.

Na zakończenie artykułu stwierdzono:

To nie głębokość, ale zespół, który wzmacnia pozostałe sieci . Sieci resztkowe przekraczają granice krotności sieci, a nie głębokości sieci. Nasz zaproponowany nierozstrzygnięty pogląd i badanie zmian pokazują, że sieci resztkowe są domyślnym zespołem wykładniczo wielu sieci. Jeśli większość ścieżek powodujących gradient jest bardzo krótka w porównaniu z ogólną głębokością sieci, sama zwiększona głębokość nie może być kluczową cechą pozostałych sieci. Uważamy teraz, że kluczową rolę odgrywa mnogość , wyrażalność sieci pod względem liczby ścieżek .

Ale to tylko najnowsza teoria, którą można potwierdzić lub obalić. Czasami zdarza się, że niektóre teorie są obalone, a artykuły są wycofywane.


Czy w końcu powinniśmy myśleć o głębokich sieciach ResNets? Zespół czy głębokość sprawia, że ​​pozostałe sieci są tak silne? Czy to możliwe, że nawet sami programiści nie do końca rozumieją, co reprezentuje ich własny model i jaka jest w nim kluczowa koncepcja?

Odpowiedzi:


4

Wyobraź sobie, że dżin spełnia trzy życzenia. Ponieważ jesteś ambitnym badaczem dogłębnej nauki, twoje pierwsze życzenie jest idealnym rozwiązaniem dla 1000-warstwowej sieci NN dla Image Net, która natychmiast pojawia się na twoim laptopie.

Teraz rozwiązanie wywołane dżinem nie daje ci żadnej intuicji, jak można by to interpretować jako zespół, ale czy naprawdę wierzysz, że potrzebujesz 1000 warstw abstrakcji, aby odróżnić kota od psa? Jak wspominają autorzy „zestawu prac”, z pewnością nie dotyczy to systemów biologicznych.

Oczywiście możesz zmarnować swoje drugie życzenie na rozkład rozwiązania na zespół sieci, i jestem pewien, że dżin byłby w stanie się zobowiązać. Powodem jest to, że część mocy głębokiej sieci zawsze będzie pochodzić z efektu zespołu.

Nic więc dziwnego, że dwie bardzo udane sztuczki trenowania sieci głębokich, sieci rezygnujących i sieci rezydualnych, mają natychmiastową interpretację jako zespół domyślny. Dlatego „to nie jest głębia, ale zespół” wydaje mi się fałszywą dychotomią. Naprawdę powiedziałbyś to tylko, jeśli szczerze wierzyłeś, że potrzebujesz setek lub tysięcy poziomów abstrakcji, aby klasyfikować obrazy z ludzką dokładnością.

Sugeruję, abyś użył ostatniego życzenia dla czegoś innego, może pinakolady.


0

Losowe sieci resztkowe dla wielu nieliniowości, takich jak tanh, żyją na skraju chaosu, w tym sensie, że odległość cosinus dwóch wektorów wejściowych zbiegnie się do stałego punktu z szybkością wielomianową, a nie z częstotliwością wykładniczą, jak w przypadku sieci waniliowej tanh. W ten sposób typowa sieć resztkowa będzie powoli przekraczać granicę stabilności-chaosu z głębokością, unosząc się wokół tej granicy przez wiele warstw. Zasadniczo nie „zapomina” geometrii przestrzeni wejściowej „bardzo szybko”. Więc nawet jeśli uczynimy je znacznie głębszymi, działają lepiej w sieciach waniliowych.

Aby uzyskać więcej informacji na temat rozpowszechniania informacji w sieciach rezydualnych - Mean Field Residual Networks: On the Edge of Chaos

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.