Próbuję przejść przez pierwszy zestaw problemów z materiałem do kursu online cs224d klasy Stanford i mam pewne problemy z problemem 3A: Używając modelu pomiń gram word2vec z funkcją przewidywania softmax i funkcją utraty entropii krzyżowej, my chcę obliczyć gradienty w stosunku do przewidywanych wektorów słów. Biorąc pod uwagę funkcję softmax:
i funkcja entropii krzyżowej:
musimy obliczyć
Moje kroki są następujące:
teraz podane jest jednym gorącym wektorem, a ja poprawną klasą:
Czy to jest poprawne, czy może być jeszcze bardziej uproszczone? Chcę się upewnić, że jestem na dobrej drodze, ponieważ rozwiązania problemów nie są publikowane online. Ponadto poprawne wykonanie pisemnych zadań jest ważne dla prawidłowego wykonania zadań programistycznych.