Propagacja wsteczna z Softmax / Cross Entropy

40

Próbuję zrozumieć, jak działa propagacja wsteczna dla warstwy wyjściowej softmax / cross-entropii.

Funkcja błędu entropii krzyżowej to

E (t, o) = - \sum_{j} t_{j} \log o_{j}

$E(t,o)=-\sum_j t_j \log o_j$

z $t$ i $o$ jako celem i wyjściem odpowiednio w neuronie $j$ . Suma jest nad każdym neuronem w warstwie wyjściowej. $o_j$ jest wynikiem funkcji softmax:

o_{j} = s o f t m a x (z_{j}) = \frac{e^{z_{j}}}{\sum_{j} e^{z_{j}}}

$o_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}}$

Ponownie, suma jest nad każdym neuronem w warstwie wyjściowej, a $z_j$ jest wejściem do neuronu $j$ :

z_{j} = \sum_{i} w_{i j} o_{i} + b

$z_j=\sum_i w_{ij}o_i+b$

Jest to suma po wszystkich neuronów w poprzedniej warstwy odpowiadającego mocy $o_i$ i masy $w_{ij}$ wobec neuronów $j$ plus polaryzacji $b$ .

Teraz, aby zaktualizować wagę $w_{ij}$ która łączy neuron $j$ w warstwie wyjściowej z neuronem $i$ w poprzedniej warstwie, muszę obliczyć częściową pochodną funkcji błędu za pomocą reguły łańcucha:

\frac{\partial E}{\partial w_{i j}} = \frac{\partial E}{\partial o_{j}} \frac{\partial o_{j}}{\partial z_{j}} \frac{\partial z_{j}}{\partial w_{i j}}

$\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial o_j} \frac{\partial o_j} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}}$

z $z_j$ jako wejście do neuronu $j$ .

Ostatni termin jest dość prosty. Ponieważ między $i$ i występuje tylko jedna waga $j$ , pochodna jest następująca:

\frac{\partial z_{j}}{\partial w_{i j}} = o_{i}

$\frac{\partial z_j} {\partial w_{ij}}=o_i$

Pierwszy termin to wyprowadzenie funkcji błędu w odniesieniu do wyjścia : $o_j$

\frac{\partial E}{\partial o_{j}} = \frac{- t_{j}}{o_{j}}

$\frac{\partial E} {\partial o_j} = \frac{-t_j}{o_j}$

Środkowy składnik to wyprowadzenie funkcji softmax w odniesieniu do jej wejścia jest trudniejsze: $z_j$

\frac{\partial o_{j}}{\partial z_{j}} = \frac{\partial}{\partial z_{j}} \frac{e^{z_{j}}}{\sum_{j} e^{z_{j}}}

$\frac{\partial o_j} {\partial z_{j}}=\frac{\partial} {\partial z_{j}} \frac{e^{z_j}}{\sum_j e^{z_j}}$

Powiedzmy, że mamy trzy neurony wyjściowe odpowiadające klasom a następnie wynosi: $a,b,c$ $o_b = softmax(b)$

o_{b} = \frac{e^{z_{b}}}{\sum e^{z}} = \frac{e^{z_{b}}}{e^{z_{a}} + e^{z_{b}} + e^{z_{c}}}

$o_b=\frac{e^{z_b}}{\sum e^{z}}=\frac{e^{z_b}}{e^{z_a}+e^{z_b}+e^{z_c}}$

i jego wyprowadzenie przy użyciu reguły ilorazowej:

Powrót do terminu średniego w przypadku propagacji wstecznej oznacza to:

\frac{\partial o_{b}}{\partial z_{b}} = \frac{e^{z_{b}} * \sum e^{z} - (e^{z_{b}})^{2}}{(\sum_{j} e^{z})^{2}} = \frac{e^{z_{b}}}{\sum e^{z}} - \frac{(e^{z_{b}})^{2}}{(\sum e^{z})^{2}}

$\frac{\partial o_b} {\partial z_{b}}=\frac{e^{z_b}*\sum e^z - (e^{z_b})^2}{(\sum_j e^{z})^2}=\frac{e^{z_b}}{\sum e^z}-\frac{(e^{z_b})^2}{(\sum e^z)^2}$

= s o f t m a x (b) - s o f t m a x^{2} (b) = o_{b} - o_{b}^{2} = o_{b} (1 - o_{b})

$=softmax(b)-softmax^2(b)=o_b-o_b^2=o_b(1-o_b)$

\frac{\partial o_{j}}{\partial z_{j}} = o_{j} (1 - o_{j})

$\frac{\partial o_j} {\partial z_{j}}=o_j(1-o_j)$

Zestawiam to wszystko razem

\frac{\partial E}{\partial w_{i j}} = \frac{- t_{j}}{o_{j}} * o_{j} (1 - o_{j}) * o_{i} = - t_{j} (1 - o_{j}) * o_{i}

$\frac{\partial E} {\partial w_{ij}}= \frac{-t_j}{o_j}*o_j(1-o_j)*o_i=-t_j(1-o_j)*o_i$

co oznacza, że jeśli celem tej klasy jest , to nie zaktualizuję wag dla tego. To nie brzmi dobrze. $t_j=0$

$i=j$ $i\ne j$

Ale nie mogę tego zrozumieć. Nie jestem nawet pewien, czy to jest przyczyną mojego błędu, dlatego publikuję wszystkie moje obliczenia. Mam nadzieję, że ktoś może mi wyjaśnić, gdzie coś mi brakuje lub idzie źle.

— Micha
źródło

Podane linki obliczają pochodną względem danych wejściowych, podczas gdy obliczasz pochodną względem wag.

— Jenkar

35

Uwaga: Nie jestem ekspertem od backprop, ale teraz, gdy przeczytałem trochę, uważam, że poniższe zastrzeżenie jest właściwe. Podczas czytania gazety lub książki na temat sieci neuronowych, nie jest rzadkością w przypadku pochodnych być napisane przy użyciu mieszanki standardowej notacji podsumowanie / index , notacji macierzowej i notacja wielowskaźnikowa (to hybryda dwóch ostatnich instrumentów pochodnych tensor-tensorowych ). Zazwyczaj chodzi o to, że należy to „rozumieć z kontekstu”, więc musisz być ostrożny!

Zauważyłem kilka niespójności w twoim pochodzeniu. Tak naprawdę nie robię sieci neuronowych, więc poniższe informacje mogą być niepoprawne. Oto, jak bym poradził sobie z tym problemem.

$E$ $E$ $k$ $z$

E = - \sum_{j} t_{j} \log o_{j} ⟹ \frac{\partial E}{\partial z_{k}} = - \sum_{j} t_{j} \frac{\partial \log o_{j}}{\partial z_{k}}

$E=-\sum_jt_j\log o_j\implies\frac{\partial E}{\partial z_k}=-\sum_jt_j\frac{\partial \log o_j}{\partial z_k}$

$o_j$

o_{j} = \frac{1}{Ω} e^{z_{j}}, Ω = \sum_{i} e^{z_{i}} ⟹ \log o_{j} = z_{j} - \log Ω

$o_j=\tfrac{1}{\Omega}e^{z_j} \,,\, \Omega=\sum_ie^{z_i} \implies \log o_j=z_j-\log\Omega$

\frac{\partial \log o_{j}}{\partial z_{k}} = δ_{j k} - \frac{1}{Ω} \frac{\partial Ω}{\partial z_{k}}

$\frac{\partial \log o_j}{\partial z_k}=\delta_{jk}-\frac{1}{\Omega}\frac{\partial\Omega}{\partial z_k}$

δ_{j k}

$\delta_{jk}$

\frac{\partial Ω}{\partial z_{k}} = \sum_{i} e^{z_{i}} δ_{i k} = e^{z_{k}}

$\frac{\partial\Omega}{\partial z_k}=\sum_ie^{z_i}\delta_{ik}=e^{z_k}$

\frac{\partial \log o_{j}}{\partial z_{k}} = δ_{j k} - o_{k}

$\frac{\partial \log o_j}{\partial z_k}=\delta_{jk}-o_k$

\frac{\partial o_{j}}{\partial z_{k}} = o_{j} (δ_{j k} - o_{k})

$\frac{\partial o_j}{\partial z_k}=o_j(\delta_{jk}-o_k)$

z_{k}

$z_k$

z

$z$

δ_{j k}

$\delta_{jk}$

= 1

$=1$

k = j

$k=j$

$E$ $z$

\frac{\partial E}{\partial z_{k}} = \sum_{j} t_{j} (o_{k} - δ_{j k}) = o_{k} (\sum_{j} t_{j}) - t_{k} ⟹ \frac{\partial E}{\partial z_{k}} = o_{k} τ - t_{k}

$\frac{\partial E}{\partial z_k}=\sum_jt_j(o_k-\delta_{jk})=o_k\left(\sum_jt_j\right)-t_k \implies \frac{\partial E}{\partial z_k}=o_k\tau-t_k$

τ = \sum_{j} t_{j}

$\tau=\sum_jt_j$

t

$t$

$t_k$ $o_k$ $t$ $\tau=1$

$o$ $z$ $o$

$y$

z_{k} = \sum_{i} w_{i k} y_{i} + b_{k} ⟹ \frac{\partial z_{k}}{\partial w_{p q}} = \sum_{i} y_{i} \frac{\partial w_{i k}}{\partial w_{p q}} = \sum_{i} y_{i} δ_{i p} δ_{k q} = δ_{k q} y_{p}

$z_k=\sum_iw_{ik}y_i+b_k \implies \frac{\partial z_k}{\partial w_{pq}}=\sum_iy_i\frac{\partial w_{ik}}{\partial w_{pq}}=\sum_iy_i\delta_{ip}\delta_{kq}=\delta_{kq}y_p$

$E$ $w$

\frac{\partial E}{\partial w_{p q}} = \sum_{k} \frac{\partial E}{\partial z_{k}} \frac{\partial z_{k}}{\partial w_{p q}} = \sum_{k} (o_{k} τ - t_{k}) δ_{k q} y_{p} = y_{p} (o_{q} τ - t_{q})

$\frac{\partial E}{\partial w_{pq}}=\sum_k\frac{\partial E}{\partial z_k}\frac{\partial z_k}{\partial w_{pq}}=\sum_k(o_k\tau-t_k)\delta_{kq}y_p=y_p(o_q\tau-t_q)$

t

$t$

τ = 1

$\tau=1$

\frac{\partial E}{\partial w_{i j}} = y_{i} (o_{j} - t_{j})

$\frac{\partial E}{\partial w_{ij}}=y_i(o_j-t_j)$

y

$y$

$o_i$ $z$ $y$ $z$ $o$

Mam nadzieję, że to pomaga. Czy ten wynik wydaje się bardziej spójny?

$\frac{\partial E}{\partial w_{p q}} = \sum_{i} \frac{\partial E}{\partial o_{i}} \frac{\partial o_{i}}{\partial w_{p q}}$ $\frac{\partial E}{\partial w_{pq}}=\sum_i \frac{\partial E}{\partial o_i}\frac{\partial o_i}{\partial w_{pq}}$ $\frac{\partial o_{i}}{\partial w_{p q}} = \sum_{k} \frac{\partial o_{i}}{\partial z_{k}} \frac{\partial z_{k}}{\partial w_{p q}}$ $\frac{\partial o_i}{\partial w_{pq}}=\sum_k \frac{\partial o_i}{\partial z_k}\frac{\partial z_k}{\partial w_{pq}}$ $\frac{\partial E}{\partial w_{p q}} = \sum_{i} [\frac{\partial E}{\partial o_{i}} (\sum_{k} \frac{\partial o_{i}}{\partial z_{k}} \frac{\partial z_{k}}{\partial w_{p q}})]$ $\frac{\partial E}{\partial w_{pq}}=\sum_i \left[ \frac{\partial E}{\partial o_i}\left(\sum_k \frac{\partial o_i}{\partial z_k}\frac{\partial z_k}{\partial w_{pq}}\right) \right]$ $\delta_{ab}$

— GeoMatt22
źródło

Nie jestem pewien, w jaki sposób społeczność „Backprop / AutoDiff” rozwiązuje te problemy, ale za każdym razem, gdy próbuję używać skrótów, mogę popełniać błędy. W końcu robię tak, jak tutaj, pisząc wszystko w kategoriach podsumowań z pełnym indeksowaniem i zawsze wprowadzając nowe indeksy dla każdej pochodnej. (Podobna do mojej odpowiedzi tutaj ... Mam nadzieję, że przynajmniej podam poprawne wyniki!)

— GeoMatt22,

Osobiście uważam, że zapisywanie wszystkiego znacznie ułatwia śledzenie. Wyniki wyglądają dla mnie poprawnie.

— Jenkar

Chociaż nadal staram się w pełni zrozumieć każdy z twoich kroków, uzyskałem cenne informacje, które pomogły mi w uzyskaniu ogólnego obrazu. Chyba muszę przeczytać więcej na temat pochodnych i sum. Ale biorąc pod uwagę twoją radę, aby wziąć pod uwagę sumę w E, wymyśliłem to:

— micha,

o_{j_{1}} = \frac{e^{z_{j_{1}}}}{Ω}

$o_{j_1}=\frac{e^{z_{j_1}}}{\Omega}$

o_{j_{1}} = \frac{e^{z_{j_{1}}}}{Ω}

$o_{j_1}=\frac{e^{z_{j_1}}}{\Omega}$

Ω = e^{z_{j_{1}}} + e^{z_{j_{2}}}

$\Omega=e^{z_{j_1}}+e^{z_{j_2}}$

E = - (t_{1} l o g o_{j_{1}} + t_{2} l o g o_{j_{2}}) = - (t_{1} (z_{j_{1}} - l o g (Ω)) + t_{2} (z_{j_{2}} - l o g (Ω)))

$E=-(t_1 log o_{j_1}+t_2 log o_{j_2})=-(t_1(z_{j_1}-log(\Omega))+t_2(z_{j_2}-log(\Omega)))$

\frac{\partial E}{\partial (z_{j_{1}}} = - (t_{1} - t_{1} \frac{e^{z_{j_{1}}}}{Ω} - t_{2} \frac{e^{z_{j_{2}}}}{Ω}) = - t_{1} + o_{j_{1}} (t_{1} + t_{2})

$\frac{\partial E}{\partial (z_{j_1}}=-(t_1-t_1 \frac{e^{z_{j_1}}}{\Omega}-t_2 \frac{e^{z_{j_2}}}{\Omega})=-t_1+o_{j_1}(t_1+t_2)$

\frac{\partial E}{\partial w_{i j}} = \frac{\partial E}{\partial o_{j}} \frac{\partial o_{j}}{\partial z_{j}} \frac{\partial z_{j}}{\partial w_{i j}}

$\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial o_j} \frac{\partial o_j} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}}$

\frac{\partial E}{\partial w_{i j}} = \frac{\partial E}{\partial z_{j}} \frac{\partial z_{j}}{\partial w_{i j}}

$\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}}$

\partial o_{j}

$\partial o_j$

12

Chociaż odpowiedź @ GeoMatt22 jest poprawna, osobiście uważam, że bardzo przydatne jest zredukowanie problemu do przykładu zabawki i narysowanie obrazu:

$h$ $w$ $\mathbf{t}$

L = - t_{1} \log o_{1} - t_{2} \log o_{2}

$L=-t_1\log o_1 -t_2\log o_2$

o_{1} = \frac{\exp (y_{1})}{\exp (y_{1}) + \exp (y_{2})}

$o_1 = \frac{\exp(y_1)}{\exp(y_1) + \exp(y_2)}$

o_{2} = \frac{\exp (y_{2})}{\exp (y_{1}) + \exp (y_{2})}

$o_2 = \frac{\exp(y_2)}{\exp(y_1) + \exp(y_2)}$

y_{1} = w_{11} h_{1} + w_{21} h_{2} + w_{31} h_{3}

$y_1 = w_{11}h_1 + w_{21}h_2 + w_{31}h_3$

y_{2} = w_{12} h_{1} + w_{22} h_{2} + w_{32} h_{3}

$y_2 = w_{12}h_1 + w_{22}h_2 + w_{32}h_3$

$w_{21}$ $w$

$y_1$ $w_{21}$

\frac{\partial L}{\partial o_{1}} = - \frac{t_{1}}{o_{1}}

$\frac{\partial L}{\partial o_1} = -\frac{t_1}{o_1}$

\frac{\partial L}{\partial o_{2}} = - \frac{t_{2}}{o_{2}}

$\frac{\partial L}{\partial o_2} = -\frac{t_2}{o_2}$

\frac{\partial o_{1}}{\partial y_{1}} = \frac{\exp (y_{1})}{\exp (y_{1}) + \exp (y_{2})} - {(\frac{\exp (y_{1})}{\exp (y_{1}) + \exp (y_{2})})}^{2} = o_{1} (1 - o_{1})

$\frac{\partial o_1}{\partial y_1} = \frac{\exp(y_1)}{\exp(y_1) + \exp(y_2)} - \left(\frac{\exp(y_1)}{\exp(y_1) + \exp(y_2)}\right)^2 = o_1(1 - o_1)$

\frac{\partial o_{2}}{\partial y_{1}} = \frac{- \exp (y_{2}) \exp (y_{1})}{(\exp (y_{1}) + \exp (y_{2}))^{2}} = - o_{2} o_{1}

$\frac{\partial o_2}{\partial y_1} = \frac{-\exp(y_2)\exp(y_1)}{(\exp(y_1) + \exp(y_2))^2} = -o_2o_1$

\frac{\partial y_{1}}{\partial w_{21}} = h_{2}

$\frac{\partial y_1}{\partial w_{21}} = h_2$

\begin{aligned} \frac{\partial L}{\partial w_{21}} & = \frac{\partial L}{\partial o_{1}} \frac{\partial o_{1}}{\partial y_{1}} \frac{\partial y_{1}}{\partial w_{21}} + \frac{\partial L}{\partial o_{2}} \frac{\partial o_{2}}{\partial y_{1}} \frac{\partial y_{1}}{\partial w_{21}} \\ = \frac{- t_{1}}{o_{1}} [o_{1} (1 - o_{1})] h_{2} + \frac{- t_{2}}{o_{2}} (- o_{2} o_{1}) h_{2} \\ = h_{2} (t_{2} o_{1} - t_{1} + t_{1} o_{1}) \\ = h_{2} (o_{1} (t_{1} + t_{2}) - t_{1}) \\ = h_{2} (o_{1} - t_{1}) \end{aligned}

$\begin{align} \frac{\partial L}{\partial w_{21}} &= \frac{\partial L}{\partial o_1}\frac{\partial o_1}{\partial y_1}\frac{\partial y_1}{\partial w_{21}} + \frac{\partial L}{\partial o_2}\frac{\partial o_2}{\partial y_1}\frac{\partial y_1}{\partial w_{21}}\\ &= \frac{-t_1}{o_1}[o_1(1 - o_1)]h_2 + \frac{-t_2}{o_2}(-o_2 o_1)h_2\\ &= h_2(t_2 o_1 - t_1 + t_1 o_1)\\ &= h_2(o_1(t_1 + t_2) - t_1)\\ &= h_2(o_1 - t_1) \end{align}$

$t_1 + t_2 = 1$ $\mathbf{t}$

— Vivek Subramanian
źródło

To ostatecznie mnie wyjaśniło! Doskonałe i eleganckie wyjaśnienie !!!!

— SantoshGupta7

2

Cieszę się, że oboje dobrze się bawiliście i czytaliście mój post! Pomogło mi również napisać to i wyjaśnić.

— Vivek Subramanian

= \frac{- t_{1}}{o_{1}} [o_{1} (1 - o_{1})] h_{2} + \frac{- t_{2}}{o_{2}} (- o_{2} o_{1}) h_{2}

$= \frac{-t_1}{o_1}[o_1(1 - o_1)]h_2 + \frac{-t_2}{o_2}(-o_2 o_1)h_2\\$ zamiast ?

— koryakinp

Masz rację - to była literówka! Dokonam zmiany.

— Vivek Subramanian

Nie rozumiem tutaj, że przypisujesz logi (nieskalowane wyniki) do niektórych neuronów. (o to logiki softmaksymalne (prognozy), a y to logity w twoim przypadku). Jednak tak się zwykle nie dzieje, prawda? Spójrz na to zdjęcie (o_out1 to predykcja, a o_in1 to logity), więc jak to możliwe w tym przypadku, jak znaleźć częściową pochodną o2 w odniesieniu do y1?

— ARAT

6

$\{o_i\},\,$ $\{y_i\}$ $\{p_i\}$ $\{o_i\}$

$Y$ $y$

Y = D i a g (y)

$Y={\rm Diag}(y)$

E

$E$

W

$W$

\begin{aligned} z & = W p + b & d z = d W p \\ y & = s o f t m a x (z) & d y = (Y - y y^{T}) d z \\ E & = - t : \log (y) & d E = - t : Y^{- 1} d y \\ d E & = - t : Y^{- 1} (Y - y y^{T}) d z \\ = - t : (I - 1 y^{T}) d z \\ = - t : (I - 1 y^{T}) d W p \\ = (y 1^{T} - I) t p^{T} : d W \\ = ((1^{T} t) y p^{T} - t p^{T}) : d W \\ \frac{\partial E}{\partial W} & = (1^{T} t) y p^{T} - t p^{T} \end{aligned}

$\eqalign{ z &= Wp+b &dz= dWp \cr y &= {\rm softmax}(z) &dy = (Y-yy^T)\,dz \cr E &= -t:\log(y) &dE = -t:Y^{-1}dy \cr\cr dE &= -t:Y^{-1}(Y-yy^T)\,dz \cr &= -t:(I-1y^T)\,dz \cr &= -t:(I-1y^T)\,dW\,p \cr &= (y1^T-I)tp^T:dW \cr &= ((1^Tt)yp^T - tp^T):dW \cr\cr \frac{\partial E}{\partial W} &= (1^Tt)yp^T - tp^T \cr }$

— szczery
źródło

6

Oto jedna z najczystszych i dobrze napisanych notatek, które natrafiłem na Internet, która wyjaśnia „obliczanie pochodnych w algorytmie propagacji wstecznej z funkcją utraty entropii krzyżowej” .

— yottabytt
źródło

Jak w równaniu 22 równanie 22 stało się równaniem 23? Jak w przypadku, gdy sumowanie (k! = I) uzyskało znak ujemny. Czy to nie powinno mieć pozytywnego znaku? Podobnie Summation(Fn)(For All K) = Fn(k=i) + Summation(Fn)(k!=i)powinno się dziać zgodnie z moim zrozumieniem.

— faizan

1

Oto link wyjaśniający softmax i jego pochodną.

Wyjaśnia powód używania i = j oraz i! = J.

— S. Muhammad H. Mustafa
źródło

Zaleca się udzielenie minimalnej, samodzielnej odpowiedzi, na wypadek, gdyby łącze zostało zerwane w przyszłości. W przeciwnym razie może to nie pomóc innym użytkownikom w przyszłości.

— luchonacho

0

$t_j$ $o_j$ $o_j$ $i=j$ $i\neq j$

— kuixiong
źródło