Bias działa na wirtualny neuron, więc nie ma żadnej wartości w posiadaniu wielu danych wejściowych polaryzacji, w których jest jedno wyjście - to odpowiadałoby po prostu zsumowaniu różnych wag bias w jednym polaryzacji.
W mapach obiektów, które są wynikiem pierwszej ukrytej warstwy, kolory nie są już przechowywane osobno *. W efekcie każda mapa obiektów jest „kanałem” w następnej warstwie, chociaż zazwyczaj są one wizualizowane osobno, gdzie wejście jest wizualizowane z połączonymi kanałami. Innym sposobem myślenia na ten temat jest to, że osobne kanały RGB w oryginalnym obrazie to 3 „mapy funkcji” na wejściu.
Nie ma znaczenia, ile kanałów lub obiektów znajduje się na poprzedniej warstwie, dane wyjściowe do każdej mapy obiektów na następnej warstwie są pojedynczą wartością na tej mapie. Jedna wartość wyjściowa odpowiada jednemu wirtualnemu neuronowi, wymagającemu jednej wagi polaryzacji.
W CNN, jak wyjaśniono w pytaniu, te same wagi (łącznie z wagą obciążenia) są wspólne w każdym punkcie wyjściowej mapy obiektów. Tak więc każda mapa obiektów ma swoją własną wagę polaryzacji, a także previous_layer_num_features x kernel_width x kernel_height
wagi połączeń.
Tak więc, twój przykład, w którym (3 x (5x5) + 1) x 32
suma wag dla pierwszej warstwy jest poprawna dla CNN z pierwszą ukrytą warstwą przetwarzającą wejście RGB na 32 oddzielne mapy obiektów.
* Możesz się mylić, widząc wizualizację odważników CNN, które można podzielić na kanały kolorów, na których działają.