Oto jak wyraziłbym utratę entropii krzyżowej :
L(X,Y)=−1n∑i=1ny(i)lna(x(i)) + (1−y(i))ln( 1 - a(x(i)) )
Tutaj to zbiór przykładów wejściowych w zbiorze danych szkoleniowych, a to odpowiedni zestaw etykiet dla tych przykładów wprowadzania. A reprezentuje wyjście sieci neuronowej przy danym wejściu . Y = { y ( 1 ) , … , y ( n ) } a ( x ) xX= { x( 1 ), … , X( n )}Y= { y( 1 ), … , Y( n )}a ( x )x
Każde z ma wartość 0 lub 1, a aktywacja wyjścia jest zwykle ograniczona do otwartego przedziału (0, 1) przy użyciu logistycznej sigmoidu . Na przykład w przypadku sieci jednowarstwowej (co jest równoważne regresji logistycznej) aktywacja byłaby realizowana przez gdzie jest macierz wagowa jest wektorem polaryzacji. W przypadku wielu warstw możesz rozwinąć funkcję aktywacji do czegoś takiego jak gdzie i to macierz wagowa i odchylenie dla pierwszej warstwy oraz a ( x ) a ( x ) = 1y( i )a ( x ) Wba(x)=1
a ( x ) = 11 + e- W.x - b
W.b Vcz(x)a ( x ) = 11 + e- W.z( x ) - bz( x ) = 11 + e- Vx - c
V.doz( x ) to aktywacja ukrytej warstwy w sieci.
Użyłem indeksu górnego (i) do oznaczenia przykładów, ponieważ okazało się, że jest on dość skuteczny na kursie uczenia maszynowego Andrew Ng; czasami ludzie wyrażają przykłady jako kolumny lub wiersze w matrycy, ale idea pozostaje taka sama.