Mam następujący CNN:

Zaczynam od obrazu wejściowego o rozmiarze 5x5
Następnie stosuję splot za pomocą jądra 2x2 i stride = 1, który tworzy mapę cech o rozmiarze 4x4.
Następnie stosuję maksymalne łączenie 2x2 z krokiem = 2, co zmniejsza mapę obiektów do rozmiaru 2x2.
Następnie stosuję sigmoid logistyczny.
Następnie jedna w pełni połączona warstwa z 2 neuronami.
I warstwa wyjściowa.

Dla uproszczenia załóżmy, że wykonałem już przejście do przodu i obliczyłem δH1 = 0,25 i δH2 = -0,15

Tak więc po zakończeniu pełnego przejścia do przodu i częściowo ukończonego przejścia do tyłu moja sieć wygląda następująco:

Następnie obliczam delty dla warstwy nieliniowej (sigmoid logistyczny):

\begin{aligned} δ_{11} = (0.25 * 0.61 + - 0.15 * 0.02) * 0.58 * (1 - 0.58) = 0.0364182 \\ δ_{12} = (0.25 * 0.82 + - 0.15 * - 0.50) * 0.57 * (1 - 0.57) = 0.068628 \\ δ_{21} = (0.25 * 0.96 + - 0.15 * 0.23) * 0.65 * (1 - 0.65) = 0.04675125 \\ δ_{22} = (0.25 * - 1.00 + - 0.15 * 0.17) * 0.55 * (1 - 0.55) = - 0.06818625 \end{aligned}

$\begin{align} &\delta_{11}=(0.25 * 0.61 + -0.15 * 0.02) * 0.58 * (1 - 0.58) = 0.0364182\\ &\delta_{12}=(0.25 * 0.82 + -0.15 * -0.50) * 0.57 * (1 - 0.57) = 0.068628\\ &\delta_{21}=(0.25 * 0.96 + -0.15 * 0.23) * 0.65 * (1 - 0.65) = 0.04675125\\ &\delta_{22}=(0.25 * -1.00 + -0.15 * 0.17) * 0.55 * (1 - 0.55) = -0.06818625\\ \end{align}$

Następnie propaguję delty na warstwę 4x4 i ustawiam wszystkie wartości, które zostały odfiltrowane przez maksymalne pule na 0, a mapa gradientu wygląda następująco:

Jak mogę stamtąd zaktualizować wagi jądra? A jeśli moja sieć miała inną warstwę splotową przed 5x5, jakich wartości powinienem użyć, aby zaktualizować jej wagi jądra? I ogólnie, czy moje obliczenia są prawidłowe?

— koryakinp
źródło

Wyjaśnij, co Cię dezorientuje. Wiesz już, jak zrobić pochodną maksimum (wszystko jest zerowe, z wyjątkiem sytuacji, gdy wartość jest maksymalna). Więc zapomnijmy o maksymalnym gromadzeniu. Czy twój problem dotyczy splotu? Każda łatka splotowa będzie miała własne pochodne, jest to powolny proces obliczeniowy.

— Ricardo Cruz

Najlepszym źródłem jest książka do głębokiego uczenia się - co prawda niełatwa do przeczytania :). Pierwszy splot to to samo, co podzielenie obrazu na plastry, a następnie zastosowanie normalnej sieci neuronowej, w której każdy piksel jest połączony z liczbą „filtrów” używanych przez użytkownika.

— Ricardo Cruz

Czy twoje pytanie jest w istocie, w jaki sposób dostosowuje się wagi jądra za pomocą propagacji wstecznej?

— JahKnows

@JahKnows .. i jak obliczane są gradienty dla warstwy splotowej, biorąc pod uwagę przykład.

— koryakinp

Czy istnieje funkcja aktywacji powiązana z twoimi warstwami splotowymi?

— JahKnows

Splot wykorzystuje zasadę podziału masy, która znacznie skomplikuje matematykę, ale spróbujmy przejść przez chwasty. Większość moich wyjaśnień czerpię z tego źródła .

Przekaż do przodu

Jak zauważyłeś, przejście do przodu warstwy splotowej można wyrazić jako

$x_{i, j}^l = \sum_m \sum_n w_{m,n}^l o_{i+m, j+n}^{l-1} + b_{i, j}^l$

$k_1$ $k_2$ $k_1=k_2=2$ $x_{0,0} = 0.25$ $m$ $n$

Propagacja wsteczna

Zakładając, że używasz średniego błędu kwadratu (MSE) zdefiniowanego jako

$E = \frac{1}{2}\sum_p (t_p - y_p)^2$

chcemy ustalić

$\frac{\partial E}{\partial w^l_{m', n'}}$ $m'$ $n'$ $w^1_{0,0} = -0.13$ $H$ $K$

$(H-k_1+1)$ $(W-k_2+1)$

$4$ $4$ $w^1_{0,0} = -0.13$ $x^1_{0,0} = 0.25$

$\frac{\partial E}{\partial w^l_{m', n'}} = \sum_{i=0}^{H-k_1} \sum_{j=0}^{W-k_2} \frac{\partial E}{\partial x^l_{i, j}} \frac{\partial x^l_{i, j}}{\partial w^l_{m', n'}}$

To iteruje całą przestrzeń wyjściową, określa błąd, który przyczynia się do produkcji, a następnie określa współczynnik udziału ciężaru jądra w odniesieniu do tej produkcji.

Nazwijmy przyczynę błędu błędem przestrzeni wyjściowej dla uproszczenia i śledzenia błędu propagowanego wstecz,

$\frac{\partial E}{\partial x^l_{i, j}} = \delta^l_{i,j}$

Wkład odważników

Splot określa się jako

$x_{i, j}^l = \sum_m \sum_n w_{m,n}^l o_{i+m, j+n}^{l-1} + b_{i, j}^l$

a zatem,

$\frac{\partial x^l_{i, j}}{\partial w^l_{m', n'}} = \frac{\partial}{\partial w^l_{m', n'}} (\sum_m \sum_n w_{m,n}^l o_{i+m, j+n}^{l-1} + b_{i, j}^l)$

$m=m'$ $n=n'$

$\frac{\partial x^l_{i, j}}{\partial w^l_{m', n'}} = o^{l-1}_{i+m', j+n'}$

Wróćmy do naszego terminu błędu

$\frac{\partial E}{\partial w^l_{m', n'}} = \sum_{i=0}^{H-k_1} \sum_{j=0}^{W-k_2} \delta_{i,j}^l o^{l-1}_{i+m', j+n'}$

Spadek gradientu stochastycznego

$w^{(t+1)} = w^{(t)} - \eta \frac{\partial E}{\partial w^l_{m', n'}}$

Obliczmy niektóre z nich

import numpy as np
from scipy import signal
o = np.array([(0.51, 0.9, 0.88, 0.84, 0.05), 
              (0.4, 0.62, 0.22, 0.59, 0.1), 
              (0.11, 0.2, 0.74, 0.33, 0.14), 
              (0.47, 0.01, 0.85, 0.7, 0.09),
              (0.76, 0.19, 0.72, 0.17, 0.57)])
d = np.array([(0, 0, 0.0686, 0), 
              (0, 0.0364, 0, 0), 
              (0, 0.0467, 0, 0), 
              (0, 0, 0, -0.0681)])

gradient = signal.convolve2d(np.rot90(np.rot90(d)), o, 'valid')

macierz ([[0,044606, 0,094061], [0,011262, 0,068288]])

$\frac{\partial E}{\partial w}$

Daj mi znać, jeśli są błędy w pochodnej.

Aktualizacja: poprawiony kod

— JahKnows
źródło

\frac{\partial E}{\partial w_{m^{'}, n^{'}}^{l}}

$\frac{\partial E}{\partial w^l_{m', n'}}$

gradient = signal.convolve2d(np.rot90(np.rot90(d)), o, 'valid')

— Sun Bee

Chciałbym zasugerować przejrzenie tej odpowiedzi. W szczególności można sprawdzić dostarczony kod w pythonie

— Duloren

propagacja wsteczna w CNN

Przekaż do przodu

Propagacja wsteczna

Wkład odważników

Spadek gradientu stochastycznego