Przechodzę przez problemy w pisemnych problemach z klasą głębokiego uczenia się NLP Stanforda http://cs224d.stanford.edu/assignment1/assignment1_soln
Próbuję zrozumieć odpowiedź dla 3a, gdzie szukają pochodnej wektora dla środkowego słowa.
Załóżmy, że otrzymałeś przewidywany wektor słowa odpowiadający środkowemu słowu c dla skipgramu, a przewidywania słów dokonuje się za pomocą funkcji softmax występującej w modelach word2vec.
Gdzie w oznacza w słowo, a (w = 1, ..., W) to wektory słów „wyjściowych” dla wszystkich słów w słowniku. Załóżmy, że do tej prognozy stosuje się koszt entropii krzyżowej, a słowo o jest słowem oczekiwanym.
Gdzie jest macierzą wszystkich wektorów wyjściowych i niech będzie wektorem kolumnowym predykcji słów softmax, a y będzie jednorazową etykietą, która jest również wektorem kolumny.
Gdzie entropia krzyżowa to
Tak więc odpowiedź na gradient dla wektora środkowego to
Czy ktoś mógłby mi pokazać kroki, aby do tego dojść? Użyłem tego pytania jako odniesienia Pochodna utraty entropii krzyżowej w word2vec, ale szczególnie chcę poznaćreprezentacja.