Czym dokładnie jest blok Residual Learning w kontekście Deep Residual Networks w Deep Learning?


12

Czytałem artykuł Deep Residual Learning for Image Recognition i miałem trudności ze zrozumieniem ze 100% pewnością, co pociąga za sobą blok obliczeniowy. Czytając gazetę mają rysunek 2:

wprowadź opis zdjęcia tutaj

co ilustruje, jaki powinien być blok rezydualny. Czy obliczenie bloku resztkowego jest po prostu takie samo jak:

y=σ(W2σ(W1x+b1)+b2+x)

A może to coś innego?

Innymi słowy, być może próba dopasowania do zapisu artykułu jest:

F(x)+x=[W2σ(W1x+b1)+b2]+x

czy to prawda?

Zauważ, że po zsumowaniu koła na papierze pojawia się słowo ReLU, więc wyjście bloku resztkowego (które oznaczyłem przez ) powinno być:y

σ(F(x)+x)=σ([W2σ(W1x+b1)+b2]+x)

z jedną dodatkową nieliniowością ReLU .σ


jest x oznacza dodatnią relu (x) = x
Ray Tayek

Odpowiedzi:


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.