Rzecz w tym:
Oblicz gradient w odniesieniu do warstwy wejściowej dla sieci neuronowej z jedną ukrytą warstwą, używając sigmoid dla wejścia -> ukryty, softmax dla ukrytego -> wyjścia, z utratą entropii krzyżowej.
Mogę przejść przez większość pochodnych za pomocą reguły łańcucha, ale nie jestem pewien, jak właściwie „połączyć” je razem.
Zdefiniuj niektóre notacje
, jest funkcją sigmoidalną
,
, jest funkcją softmax
, to prawdziwa etykieta jeden gorący wektor
Następnie regułą łańcucha
Poszczególne gradienty to:
Teraz musimy połączyć definicje razem. W pojedynczej zmiennej jest to łatwe, po prostu mnożymy wszystko razem. W wektorach nie jestem pewien, czy użyć mnożenia elementarnego czy mnożenia macierzy.
Gdzie to elementowe mnożenie wektorów, a to mnożenie macierzy. Ta kombinacja operacji jest jedynym sposobem, w jaki wydaje mi się, że mogę połączyć je razem, aby uzyskać wektor wymiaru , o czym wiem, że .
Moje pytanie brzmi: w jaki sposób mogę dowiedzieć się, którego operatora użyć? Jestem szczególnie zdezorientowany potrzebą elementu między i .
Dzięki!