Jak obliczyć wartość delta dla warstwy konwergentnej, biorąc pod uwagę warunki delta i wagi poprzedniej warstwy konwergentnej?

Próbuję trenować sztuczną sieć neuronową z dwiema warstwami splotowymi (c1, c2) i dwiema warstwami ukrytymi (c1, c2). Używam standardowego podejścia do propagacji wstecznej. W przejściu wstecznym obliczam wartość błędu warstwy (delta) na podstawie błędu poprzedniej warstwy, wag poprzedniej warstwy i gradientu aktywacji w odniesieniu do funkcji aktywacji bieżącej warstwy. Mówiąc dokładniej, delta warstwy l wygląda następująco:

delta(l) = (w(l+1)' * delta(l+1)) * grad_f_a(l)

Jestem w stanie obliczyć gradient c2, który łączy się ze zwykłą warstwą. Po prostu mnożę wagi h1 przez jego deltę. Następnie przekształcam tę macierz w postać wyjścia c2, mnożę ją przez gradient funkcji aktywacyjnej i gotowe.

Teraz mam delta c2 - która jest macierzą 4D wielkości (featureMapSize, featureMapSize, filterNum, patternNum). Ponadto mam wagi c2, które są matrycą 3D wielkości (filterSize, filterSize, filterNum).

Z tymi dwoma warunkami i gradientem aktywacji c1 chcę obliczyć deltę c1.

Krótko mówiąc:

Biorąc pod uwagę deltę poprzedniej warstwy splotowej i wagi tej warstwy, jak obliczyć deltę warstwy splotowej?

— cdwoelk
źródło

Najpierw wyprowadzam błąd dla poniższej warstwy splotowej dla uproszczenia dla jednowymiarowej tablicy (danych wejściowych), którą można łatwo przenieść na wielowymiarowy:

Zakładamy tutaj, że $y^{l-1}$ długości $N$ są wejściami $l-1$ -ty konw. warstwa, $m$ jest wagą wielkości jądra $w$ oznaczając każdą wagę przez $w_i$ i wynik jest $x^l$ .
Dlatego możemy napisać (zanotuj sumę od zera):

x_{i}^{l} = \sum_{a = 0}^{m - 1} w_{a} y_{a + i}^{l - 1}

$x_i^l = \sum\limits_{a=0}^{m-1} w_a y_{a+i}^{l-1}$ gdzie

y_{i}^{l} = f (x_{i}^{l})

$y_i^l = f(x_i^l)$ i

f

$f$ funkcja aktywacji (np. sigmoidalna). Mając to pod ręką, możemy teraz rozważyć pewną funkcję błędu

E

$E$ oraz funkcja błędu w warstwie splotowej (tej z poprzedniej warstwy) podana przez

\partial E / \partial y_{i}^{l}

$\partial E / \partial y_i^l$ . Chcemy teraz dowiedzieć się, jaka jest zależność błędu w jednym z wag poprzednich warstw:

\frac{\partial E}{\partial w_{a}} = \sum_{a = 0}^{N - m} \frac{\partial E}{\partial x_{i}^{l}} \frac{\partial x_{i}^{l}}{\partial w_{a}} = \sum_{a = 0}^{N - m} \frac{\partial E}{\partial w_{a}} y_{i + a}^{l - 1}

$\begin{equation} \frac{\partial E}{\partial w_a} = \sum\limits_{a=0}^{N-m} \frac{\partial E}{\partial x_i^l} \frac{\partial x_i^l}{\partial w_a} = \sum\limits_{a=0}^{N-m}\frac{\partial E}{\partial w_a} y_{i+a}^{l-1} \end{equation}$
gdzie mamy sumę nad wszystkimi wyrażeniami, w których

w_{a}

$w_a$ występuje, które są

N - m

$N-m$ . Należy również pamiętać, że wiemy, że ostatni termin wynika z faktu, że

\frac{\partial x_{i}^{l}}{\partial w_{a}} = y_{i + a}^{l - 1}

$\frac{\partial x_i^l}{\partial w_a}= y_{i+a}^{l-1}$ co widać z pierwszego równania.
Aby obliczyć gradient, musimy znać pierwszy termin, który można obliczyć:

\frac{\partial E}{\partial x_{i}^{l}} = \frac{\partial E}{\partial y_{i}^{l}} \frac{\partial y_{i}^{l}}{\partial x_{i}^{l}} = \frac{\partial E}{\partial y_{i}^{l}} \frac{\partial}{\partial x_{i}^{l}} f (x_{i}^{l})

$\frac{\partial E}{\partial x_i^l} = \frac{\partial E}{\partial y_i^l} \frac{\partial y_i^l}{\partial x_i^l} = \frac{\partial E}{\partial y_i^l} \frac{\partial}{\partial x_i^l} f(x_i^{l})$ gdzie znowu pierwszym terminem jest błąd w poprzedniej warstwie i

f

$f$ nieliniowa funkcja aktywacji.

Mając wszystkie niezbędne byty, jesteśmy w stanie obliczyć błąd i skutecznie propagować go z powrotem do cennej warstwy:

δ_{a}^{l - 1} = \frac{\partial E}{\partial y_{i}^{l - 1}} = \sum_{a = 0}^{m - 1} \frac{\partial E}{\partial x_{i - a}^{l}} \frac{\partial x_{i - a}^{l}}{\partial y_{i}^{l - 1}} = \sum_{a = 0}^{m - 1} \frac{\partial E}{\partial x_{i - a}^{l}} w_{a}^{f l i p p e d}

$\delta^{l-1}_a = \frac{\partial E}{\partial y_i^{l-1} } = \sum\limits_{a=0}^{m-1} \frac{\partial E}{\partial x_{i-a}^l} \frac{\partial x_{i-a}^l}{\partial y_i^{l-1}} = \sum\limits_{a=0}^{m-1} \frac{\partial E}{\partial x^l_{i-a}} w_a^{flipped}$ Pamiętaj, że ostatni krok można łatwo zrozumieć, zapisując

x_{i}^{l}

$x_i^l$ -s wrt

y_{i}^{l - 1}

$y_i^{l-1}$ -s. The

f l i p p e d

$flipped$ odnosi się do transponowanej masy maxtrix (

T

$T$ ).

Dlatego możesz po prostu obliczyć błąd w następnej warstwie przez (teraz w notacji wektorowej):

δ^{l} = (w^{l})^{T} δ^{l + 1} f^{'} (x^{l})

$\delta^{l} = (w^{l})^{T} \delta^{l+1} f'(x^{l})$

która staje się warstwą splotową i podpróbkowania:

δ^{l} = u p s a m p l e ((w^{l})^{T} δ^{l + 1}) f^{'} (x^{l})

$\delta^{l} = upsample((w^{l})^{T} \delta^{l+1}) f'(x^{l})$ gdzie

u p s a m p l e

$upsample$ Operacja propaguje błąd przez maksymalną warstwę puli.

Dodaj mnie lub popraw!

Odniesienia patrz:

http://ufldl.stanford.edu/tutorial/supervised/ConvolutionalNeuralNetwork/ http://andrew.gibiansky.com/blog/machine-learning/convolutional-neural-networks/

i dla implementacji C ++ (bez konieczności instalacji): https://github.com/nyanp/tiny-cnn#supported-networks

— LeoW.
źródło