Czym dokładnie jest blok Residual Learning w kontekście Deep Residual Networks w Deep Learning?

Czytałem artykuł Deep Residual Learning for Image Recognition i miałem trudności ze zrozumieniem ze 100% pewnością, co pociąga za sobą blok obliczeniowy. Czytając gazetę mają rysunek 2:

co ilustruje, jaki powinien być blok rezydualny. Czy obliczenie bloku resztkowego jest po prostu takie samo jak:

y = σ (W_{2} σ (W_{1} x + b_{1}) + b_{2} + x)

$\mathbf{y} = \sigma( W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 + \mathbf{x} )$

A może to coś innego?

Innymi słowy, być może próba dopasowania do zapisu artykułu jest:

F (x) + x = [W_{2} σ (W_{1} x + b_{1}) + b_{2}] + x

$\mathcal F(x) + x = \left[ W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 \right] + \mathbf{x}$

czy to prawda?

Zauważ, że po zsumowaniu koła na papierze pojawia się słowo ReLU, więc wyjście bloku resztkowego (które oznaczyłem przez ) powinno być: $\mathbf{y}$

σ (F (x) + x) = σ ([W_{2} σ (W_{1} x + b_{1}) + b_{2}] + x)

$\sigma( \mathcal F(x) + x ) = \sigma( \left[ W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 \right] + \mathbf{x} )$

z jedną dodatkową nieliniowością ReLU . $\sigma$

— Charlie Parker
źródło

jest x oznacza dodatnią relu (x) = x

— Ray Tayek

Tak, to prawda, możesz rzucić okiem na ich model caffe, aby zobaczyć, jak jest on wdrażany.

— dontloo
źródło