Gradienty dla słowa skipgram 2

Przechodzę przez problemy w pisemnych problemach z klasą głębokiego uczenia się NLP Stanforda http://cs224d.stanford.edu/assignment1/assignment1_soln

Próbuję zrozumieć odpowiedź dla 3a, gdzie szukają pochodnej wektora dla środkowego słowa.

Załóżmy, że otrzymałeś przewidywany wektor słowa odpowiadający środkowemu słowu c dla skipgramu, a przewidywania słów dokonuje się za pomocą funkcji softmax występującej w modelach word2vec. $v_{c}$

$\hat{y}^{o} = p(o | c) = \frac {exp(u_{o}^{T} v_{c})}{\sum_{w=1}^{W}exp(u_{w}^{T} v_{c})}$

Gdzie w oznacza w słowo, a (w = 1, ..., W) to wektory słów „wyjściowych” dla wszystkich słów w słowniku. Załóżmy, że do tej prognozy stosuje się koszt entropii krzyżowej, a słowo o jest słowem oczekiwanym. $u_w$

Gdzie jest macierzą wszystkich wektorów wyjściowych i niech będzie wektorem kolumnowym predykcji słów softmax, a y będzie jednorazową etykietą, która jest również wektorem kolumny. $U = [u_1,u_2, · · · ,u_W ]$ $\hat{y}$

Gdzie entropia krzyżowa to $CE(y, \hat{y}) = − \sum_iy_i\log(\hat{y}_i)$

Tak więc odpowiedź na gradient dla wektora środkowego to $\frac{∂J}{∂v_c}= U^T(\hat{y} − y).$

Czy ktoś mógłby mi pokazać kroki, aby do tego dojść? Użyłem tego pytania jako odniesienia Pochodna utraty entropii krzyżowej w word2vec, ale szczególnie chcę poznaćreprezentacja. $U^T(\hat{y} − y).$

— Fundusz Jake'a
źródło

Najpierw nakreślmy, co mamy i nasze założenia dotyczące kształtów różnych wektorów. Pozwolić,

$|W|$ być liczbą słów w słownictwie
$y$ i są wektorami kolumnowymi o kształciex 1 $\hat{y}$ $|W|$
$u_i$ i będą wektorami kolumnowymi kształtu X 1 ( = wymiar osadzenia) $v_j$ $D$ $D$
$y$ będzie zakodowanym na gorąco wektorem kolumny o kształciex 1 $|W|$
$\hat{y}$ być wektorem kolumny predykcji softmax kształtux 1 $|W|$
$\hat{y}_i = P(i|c) = \frac{exp(u_i^Tv_c)}{\sum_{w=1}^Wexp(u_w^Tv_c)}$
Strata entropii krzyżowej: $J = -\sum_{i=1}^Wy_ilog({\hat{y_i}})$
$U = [u_1, u_2, ...,u_k, ...u_W]$ być macierzą złożoną z wektorów kolumnowych . $u_k$

Teraz możemy napisać Uproszczenie, Teraz wiemy, że jest zakodowane jednorazowo, więc wszystkie jego elementy są równe zero, z wyjątkiem jednego, powiedzmy, indeksu . Co oznacza, że w powyższym podsumowaniu jest tylko jeden niezerowy wyraz odpowiadający a wszystkie inne wyrażenia w podsumowaniu są zerami. Koszt można więc zapisać również jako: Uwaga: powyżej wynosi 1.

J = - \sum_{i = 1}^{W} y_{i} l o g (\frac{e x p (u_{i}^{T} v_{c})}{\sum_{w = 1}^{W} e x p (u_{w}^{T} v_{c})})

$J = - \sum_{i=1}^W y_i log(\frac{exp(u_i^Tv_c)}{\sum_{w=1}^Wexp(u_w^Tv_c)})$

J = - \sum_{i = 1}^{W} y_{i} [u_{i}^{T} v_{c} - l o g (\sum_{w = 1}^{W} e x p (u_{w}^{T} v_{c}))]

$J = - \sum_{i=1}^Wy_i[u_i^Tv_c - log(\sum_{w=1}^Wexp(u_w^Tv_c))]$

y

$y$

k^{t h}

$k^{th}$

y_{k}

$y_k$

J = - y_{k} [u_{k}^{T} v_{c} - l o g (\sum_{w = 1}^{W} e x p (u_{w}^{T} v_{c}))]

$J = -y_k[u_k^Tv_c - log(\sum_{w=1}^Wexp(u_w^Tv_c))]$

y_{k}

$y_k$

Rozwiązywanie dla : $\frac{\partial J}{\partial v_c}$

\frac{\partial J}{\partial v_{c}} = - [u_{k} - \frac{\sum_{w = 1}^{W} e x p (u_{w}^{T} v_{c}) u_{w}}{\sum_{x = 1}^{W} e x p (u_{x}^{T} v_{c})}]

$\frac{\partial J}{\partial v_c} = -[u_k - \frac{\sum_{w=1}^Wexp(u_w^Tv_c)u_w}{\sum_{x=1}^Wexp(u_x^Tv_c)}]$

Które można zmienić za pomocą: Korzystając z definicji (6), możemy przepisać powyższe równanie jako:

\frac{\partial J}{\partial v_{c}} = \sum_{w = 1}^{W} (\frac{e x p (u_{w}^{T} v_{c})}{\sum_{x = 1}^{W} e x p (u_{x}^{T} v_{c})} u_{w}) - u_{k}

$\frac{\partial J}{\partial v_c} = \sum_{w=1}^W (\frac{exp(u_w^Tv_c)}{\sum_{x=1}^W exp(u_x^Tv_c)}u_w) - u_k$

\frac{\partial J}{\partial v_{c}} = \sum_{w = 1}^{W} ({\hat{y}}_{w} u_{w}) - u_{k}

$\frac{\partial J}{\partial v_c} = \sum_{w=1}^W (\hat{y}_w u_w) - u_k$

Zobaczmy teraz, jak można to zapisać w notacji Matrix.

$u_k$ można zapisać jako mnożenie wektora macierzy: $U.y$
A to liniowa transformacja wektorów w skalowana odpowiednio przez . To znowu można zapisać jako $\sum_{w=1}^W (\hat{y}_w u_w)$ $u_w$ $U$ $\hat{y}_w$ $U.\hat{y}$

Całość można więc zwięźle napisać jako:

U [\hat{y} - y]

$U[\hat{y} -y]$

Na koniec zauważ, że założyliśmy, że to wektory kolumnowe. Gdybyśmy zaczęli od wektorów wierszowych, otrzymalibyśmy , tak jak to, czego szukaliście. $u_i$ $U^T[\hat{y} -y]$

— Sachin Tyagi
źródło

Chciałem tylko powiedzieć, że to wspaniałe wytłumaczenie dla pochodnych! To naprawdę pomaga matematykom, takim jak ja. Dziękuję Ci!

— Eric Kim

+1 za niesamowite wyjaśnienie!

— bragboy

Nie rozumiem, dlaczego to pochodzenie:

\frac{\partial}{\partial B} A^{T} B = A

$\frac{\partial}{\partial B} A^TB = A$

— Parth Tamane

@ParthTamane Proszę rzucić okiem na to - math.stackexchange.com/questions/3270789/...

— Sachin tyagi