Czytałem artykuł Deep Residual Learning for Image Recognition i miałem trudności ze zrozumieniem ze 100% pewnością, co pociąga za sobą blok obliczeniowy. Czytając gazetę mają rysunek 2:
co ilustruje, jaki powinien być blok rezydualny. Czy obliczenie bloku resztkowego jest po prostu takie samo jak:
A może to coś innego?
Innymi słowy, być może próba dopasowania do zapisu artykułu jest:
czy to prawda?
Zauważ, że po zsumowaniu koła na papierze pojawia się słowo ReLU, więc wyjście bloku resztkowego (które oznaczyłem przez ) powinno być:
z jedną dodatkową nieliniowością ReLU .