Funkcja kosztu krzyżowego w sieci neuronowej

11

Patrzę na funkcję kosztu entropii znalezioną w tym samouczku :

do = - \frac{1}{n} \sum_{x} [y \ln za + (1 - y) \ln (1 - za)]

$C = -\frac{1}{n} \sum_x [y \ln a+(1−y)\ln(1−a)]$

Co dokładnie sumujemy? Jest to oczywiście ponad , ale i nie zmieniają się z . Wszystkie są wejściami do jednego . jest nawet zdefiniowane w akapicie powyżej równania jako funkcja sumy wszystkich i . $x$ $y$ $a$ $x$ $x$ $a$ $a$ $w$ $x$

Również jest zdefiniowane jako liczba wejść do tego konkretnego neuronu, prawda? Jest on sformułowany jako „łączna liczba elementów danych treningowych” . $n$

Edytować:

Czy mam rację, że tak myślę

C = - \frac{1}{n} \sum_{x} [y \ln a + (1 - y) \ln (1 - a)]

$C= -\frac{1}{n} \sum_x [y \ln a+(1−y)\ln(1−a)]$

byłaby funkcją kosztu dla całej sieci, natomiast

C = [y \ln a + (1 - y) \ln (1 - a)]

$C = [y \ln a+(1−y)\ln(1−a)]$

byłby koszt dla pojedynczego neuronu? Czy suma nie powinna przekraczać każdego neuronu wyjściowego?

neural-networks error-propagation

— Adam12344
źródło

14

Oto jak wyraziłbym utratę entropii krzyżowej :

L (X, Y) = - \frac{1}{n} \sum_{ja = 1}^{n} y^{(ja)} \ln za (x^{(ja)}) + (1 - y^{(ja)}) \ln (1 - za (x^{(ja)}))

$\mathcal{L}(X, Y) = -\frac{1}{n} \sum_{i=1}^n y^{(i)} \ln a(x^{(i)}) + \left(1 - y^{(i)}\right) \ln \left(1 - a(x^{(i)})\right)$

Tutaj to zbiór przykładów wejściowych w zbiorze danych szkoleniowych, a to odpowiedni zestaw etykiet dla tych przykładów wprowadzania. A reprezentuje wyjście sieci neuronowej przy danym wejściu . $X = \left\{x^{(1)},\dots,x^{(n)}\right\}$ $Y=\left\{y^{(1)},\dots,y^{(n)} \right\}$ $a(x)$ $x$

Każde z ma wartość 0 lub 1, a aktywacja wyjścia jest zwykle ograniczona do otwartego przedziału (0, 1) przy użyciu logistycznej sigmoidu . Na przykład w przypadku sieci jednowarstwowej (co jest równoważne regresji logistycznej) aktywacja byłaby realizowana przez gdzie jest macierz wagowa jest wektorem polaryzacji. W przypadku wielu warstw możesz rozwinąć funkcję aktywacji do czegoś takiego jak gdzie i to macierz wagowa i odchylenie dla pierwszej warstwy oraz $y^{(i)}$ $a(x)$

za (x) = \frac{1}{1 + {mi}^{- W. x - b}}

$a(x) = \frac{1}{1 + e^{-Wx-b}}$

W

$W$

b

$b$

za (x) = \frac{1}{1 + {mi}^{- W. z (x) - b}} z (x) = \frac{1}{1 + {mi}^{- V. x - do}}

$a(x) = \frac{1}{1 + e^{-Wz(x)-b}} \\ z(x) = \frac{1}{1 + e^{-Vx-c}}$

V

$V$

c

$c$

z (x)

$z(x)$ to aktywacja ukrytej warstwy w sieci.

Użyłem indeksu górnego (i) do oznaczenia przykładów, ponieważ okazało się, że jest on dość skuteczny na kursie uczenia maszynowego Andrew Ng; czasami ludzie wyrażają przykłady jako kolumny lub wiersze w matrycy, ale idea pozostaje taka sama.

— lmjohns3
źródło

Dzięki! To dałoby nam jeden numer błędu dla całej sieci, dla wszystkich naszych próbek. W celu propagacji wstecznej muszę znaleźć pochodną cząstkową tej funkcji w macierzy wagowej w warstwie końcowej. Jak mam to zrobić?

— Adam12344,

Robienie backpropa to osobna puszka robaków! Strona, do której linkujesz, zawiera opis pochodnych obliczeniowych itp. I jest wiele pytań na temat backpropu na stackoverflow i tej stronie. Spróbuj się rozejrzeć, a następnie zadaj osobne pytanie dotyczące backprop.

— lmjohns3

Może to być przydatne w zrozumieniu backprop przechodzi przez podpory tylnej z czterech warstw sieci neuronowej z krzyżem utraty entropii w gory szczegółach :) cookedsashimi.wordpress.com/2017/05/06/...

— YellowPillow

5

Co dokładnie sumujemy?

Samouczek jest dość wyraźny:

... jest całkowitą liczbą pozycji danych treningowych, suma obejmuje wszystkie dane treningowe ... $n$

$x$ $\Sigma$ $a$

za = \sum_{jot} w_{jot} x_{jot} .

$a = \sum_{j} w_jx_j.$

Później w tym samym samouczku Nielsen podaje wyrażenie dla funkcji kosztu dla wielowarstwowej sieci wielonerwowej (równanie 63):

do = - \frac{1}{n} \sum_{x} \sum_{jot} [y_{jot} \ln {za}_{jot}^{L.} + (1 - y_{jot}) \ln (1 - {za}_{jot}^{L.})] .

$C = -\frac{1}{n}\sum_{x}\sum_{j}[ y_j \ln a^{L}_{j} + (1 - y_j) \ln (1 - a^{L}_{j})].$

$x$ $j$

— ali_m
źródło

Dzięki za wgląd, jedno pytanie: to ostatnie, które zdefiniowałeś, nie jest kategoryczną entropią krzyżową, prawda?

— Tommaso Guerrini

Powiedział także w swoim samouczku, że „y może czasami przyjmować wartości pośrednie między 0 a 1”, ale funkcja, którą on dał, to wszystko na y i nie było żadnych danych wejściowych aktywacji. Jak moglibyśmy zaimplementować wartości pośrednie w funkcji st?

— Feras

W samouczku Nielsena, który pokazuje perceptron jednowarstwowy, a = \ sigma (\ sum_ {j} w_j x_j), ponieważ masz funkcję aktywacji sigmoid dla swojej warstwy wyjściowej, a nie = \ sum_ {j} w_j x_j

— ARAT