Lista funkcji kosztów używanych w sieciach neuronowych wraz z aplikacjami

133

Jakie są typowe funkcje kosztów wykorzystywane do oceny wydajności sieci neuronowych?

Detale

(pomiń resztę tego pytania, moim celem jest tutaj wyjaśnienie notacji, w której odpowiedzi mogą pomóc, aby były bardziej zrozumiałe dla ogólnego czytelnika)

Myślę, że dobrze byłoby mieć listę typowych funkcji kosztów wraz z kilkoma sposobami ich wykorzystania w praktyce. Więc jeśli inni są tym zainteresowani, myślę, że wiki społeczności jest prawdopodobnie najlepszym podejściem, lub możemy to usunąć, jeśli nie jest to temat.

Notacja

Na początek chciałbym zdefiniować zapis, którego wszyscy używamy przy ich opisywaniu, aby odpowiedzi dobrze do siebie pasowały.

Ten zapis pochodzi z książki Neilsena .

Sieć neuronowa Feedforward to wiele warstw neuronów połączonych ze sobą. Następnie pobiera dane wejściowe, które „przeciekają” przez sieć, a następnie sieć neuronowa zwraca wektor wyjściowy.

Bardziej formalnie nazwij aktywacją (czyli wyjściem) neuronu w warstwie , gdzie jest w wektorze wejściowym. $a^i_j$ $j^{th}$ $i^{th}$ $a^1_j$ $j^{th}$

Następnie możemy powiązać dane wejściowe następnej warstwy z jej poprzednią poprzez następującą relację:

$a^i_j = \sigma(\sum\limits_k (w^i_{jk} \cdot a^{i-1}_k) + b^i_j)$

gdzie

$\sigma$ to funkcja aktywacyjna,

$w^i_{jk}$ to waga od neuronu w warstwie do neuronu w warstwie , $k^{th}$ $(i-1)^{th}$ $j^{th}$ $i^{th}$

$b^i_j$ jest stronniczością neuronu w warstwie , i $j^{th}$ $i^{th}$

$a^i_j$ reprezentuje wartość aktywacji neuronu w warstwie. $j^{th}$ $i^th$

Czasami piszemy aby reprezentować , innymi słowy, wartość aktywacji neuronu przed zastosowaniem funkcji aktywacji . $z^i_j$ $\sum\limits_k (w^i_{jk} \cdot a^{i-1}_k) + b^i_j$

wprowadź opis zdjęcia tutaj

Aby uzyskać bardziej zwięzły zapis, możemy napisać

$a^i = \sigma(w^i \times a^{i-1} + b^i)$

Aby użyć tej formuły do obliczenia wyniku sieci przekazywania dla niektórych danych wejściowych , ustaw , a następnie oblicz , , ..., , gdzie m jest liczbą warstw. $I \in \mathbb{R}^n$ $a^1 = I$ $a^2$ $a^3$ $a^m$

Wprowadzenie

Funkcja kosztu jest miarą „tego, jak dobra” była sieć neuronowa w odniesieniu do danej próbki treningowej i oczekiwanego wyniku. Może również zależeć od zmiennych, takich jak wagi i odchylenia.

Funkcja kosztu jest pojedynczą wartością, a nie wektorem, ponieważ ocenia, jak dobrze działała sieć neuronowa jako całość.

W szczególności funkcja kosztu ma postać

C (W, B, S^{r}, E^{r})

$C(W, B, S^r, E^r)$

gdzie jest wagami naszej sieci neuronowej, jest stronniczością naszej sieci neuronowej, jest wkładem pojedynczej próbki treningowej, a jest pożądanym wynikiem tej próbki treningowej. Uwaga ta funkcja może również potencjalnie być w zależności od i jakiegokolwiek neuronów w warstwie , ponieważ wartości te są zależne , , i . $W$ $B$ $S^r$ $E^r$ $y^i_j$ $z^i_j$ $j$ $i$ $W$ $B$ $S^r$

W propagacji wstecznej funkcja kosztu służy do obliczenia błędu naszej warstwy wyjściowej , przez $\delta^L$

δ_{j}^{L} = \frac{\partial C}{\partial a_{j}^{L}} σ^{'} (z_{j}^{i})

$\delta^L_j = \frac{\partial C}{\partial a^L_j} \sigma^{ \prime}(z^i_j)$ .

Które można również zapisać jako wektor za pomocą

δ^{L} = \nabla_{a} C ⊙ σ^{'} (z^{i})

$\delta^L = \nabla_a C \odot \sigma^{ \prime}(z^i)$ .

Podamy gradient funkcji kosztów w kategoriach drugiego równania, ale jeśli ktoś chce sam udowodnić te wyniki, zaleca się użycie pierwszego równania, ponieważ łatwiej jest z nim pracować.

Wymagania dotyczące funkcji kosztów

Aby zastosować w propagacji wstecznej, funkcja kosztu musi spełniać dwie właściwości:

1: Funkcja kosztu musi być zapisywana jako średnia $C$

C = \frac{1}{n} \sum_{x} C_{x}

$C=\frac{1}{n} \sum\limits_x C_x$

funkcje przekroczenia kosztów dla indywidualnych przykładów szkolenia, . $C_x$ $x$

Dzięki temu możemy obliczyć gradient (w odniesieniu do wag i odchyleń) dla pojedynczego przykładu treningowego i uruchomić opadanie gradientu.

2. funkcja kosztu nie musi być zależna od jakichkolwiek wartości aktywacji sieci neuronowej oprócz wartości wyjście . $C$ $a^L$

Technicznie funkcja kosztu może zależeć od dowolnego lub . Po prostu wprowadzamy to ograniczenie, abyśmy mogli zareagować wstecz, ponieważ równanie do znalezienia gradientu ostatniej warstwy jest jedynym zależnym od funkcji kosztu (pozostałe zależą od następnej warstwy). Jeśli funkcja kosztu jest zależna od innych warstw aktywacyjnych oprócz warstwy wyjściowej, propagacja wsteczna będzie nieważna, ponieważ pomysł „cofania się” już nie działa. $a^i_j$ $z^i_j$

Ponadto wymagane są funkcje aktywacyjne, aby mieć wyjście dla wszystkich . Dlatego te funkcje kosztów muszą być zdefiniowane tylko w tym zakresie (na przykład jest poprawny, ponieważ gwarantujemy ). $0\leq a^L_j \leq 1$ $j$ $\sqrt{a^L_j}$ $a^L_j \geq 0$

machine-learning neural-networks

— Phylliida
źródło

To jest strona pytań i odpowiedzi, a format tego wpisu tak naprawdę nie pasuje. Prawdopodobnie powinieneś podać większość treści w odpowiedzi i pozostaw tylko pytanie (np. Jaka jest lista funkcji kosztów używanych w sieciach społecznościowych?).

— Roger Fan

Okej, czy to jest lepsze? Myślę, że definicje są ważne, w przeciwnym razie odpowiedzi stają się niejasne dla tych, którzy nie znają terminologii używanej przez pisarza.

— Phylliida

Ale co jeśli inna odpowiedź używa innej notacji lub terminologii?

— Roger Fan

Chodzi o to, że wszyscy używają tutaj tej samej terminologii i jeśli jest inna, konwertujemy ją na to, aby odpowiedzi „pasowały” do siebie. Ale przypuszczam, że mógłbym usunąć ten kawałek, jeśli uważasz, że nie jest to pomocne.

— Phylliida

Po prostu uważam, że szczegół, na który wchodzi pytanie, nie jest naprawdę potrzebny ani istotny. Wydaje się to trochę przesadne i ograniczające, ale to tylko ja.

— Roger Fan

Odpowiedzi:

Oto te, które do tej pory rozumiem. Większość z nich działa najlepiej, gdy podano wartości od 0 do 1.

Kwadratowy koszt

Znany również jako średni błąd kwadratu , maksymalne prawdopodobieństwo i błąd kwadratu , określa się go jako:

C_{M S T} (W, B, S^{r}, E^{r}) = 0.5 \sum_{j} (a_{j}^{L} - E_{j}^{r})^{2}

$C_{MST}(W, B, S^r, E^r) = 0.5\sum\limits_j (a^L_j - E^r_j)^2$

Gradient tej funkcji kosztu w odniesieniu do wyjścia sieci neuronowej i pewnej próbki wynosi: $r$

\nabla_{a} C_{M S T} = (a^{L} - E^{r})

$\nabla_a C_{MST} = (a^L - E^r)$

Koszt entropii krzyżowej

Znany również jako ujemne prawdopodobieństwo logarytmiczne Bernoulliego i binarna krzyżowa Entropia

C_{C E} (W, B, S^{r}, E^{r}) = - \sum_{j} [E_{j}^{r} ln a_{j}^{L} + (1 - E_{j}^{r}) ln (1 - a_{j}^{L})]

$C_{CE}(W, B, S^r, E^r) = -\sum\limits_j [E^r_j \text{ ln } a^L_j + (1 - E^r_j) \text{ ln }(1-a^L_j)]$

Gradient tej funkcji kosztu w odniesieniu do wyjścia sieci neuronowej i pewnej próbki wynosi: $r$

\nabla_{a} C_{C E} = \frac{(a^{L} - E^{r})}{(1 - a^{L}) (a^{L})}

$\nabla_a C_{CE} = \frac{(a^L - E^r)}{(1-a^L)(a^L)}$

Koszt wykładniczy

Wymaga to wybrania parametru który według ciebie da ci pożądane zachowanie. Zazwyczaj musisz się z tym bawić, dopóki wszystko nie zadziała. $\tau$

C_{E X P} (W, B, S^{r}, E^{r}) = τ \exp (\frac{1}{τ} \sum_{j} (a_{j}^{L} - E_{j}^{r})^{2})

$C_{EXP}(W, B, S^r, E^r) = \tau\text{ }\exp(\frac{1}{\tau} \sum\limits_j (a^L_j - E^r_j)^2)$

gdzie jest po prostu skrótem dla . $\text{exp}(x)$ $e^x$

Gradient tej funkcji kosztu w odniesieniu do wyjścia sieci neuronowej i pewnej próbki wynosi: $r$

\nabla_{a} C = \frac{2}{τ} (a^{L} - E^{r}) C_{E X P} (W, B, S^{r}, E^{r})

$\nabla_a C = \frac{2}{\tau}(a^L- E^r)C_{EXP}(W, B, S^r, E^r)$

Mógłbym przepisać , ale to wydaje się zbędne. Punkt to gradient, który oblicza wektor, a następnie mnoży go przez . $C_{EXP}$ $C_{EXP}$

Odległość Hellingera

C_{H D} (W, B, S^{r}, E^{r}) = \frac{1}{\sqrt{2}} \sum_{j} (\sqrt{a_{j}^{L}} - \sqrt{E_{j}^{r}})^{2}

$C_{HD}(W, B, S^r, E^r) = \frac{1}{\sqrt{2}}\sum\limits_j(\sqrt{a^L_j}-\sqrt{E^r_j})^2$

Więcej informacji na ten temat można znaleźć tutaj . To musi mieć wartości dodatnie, a najlepiej wartości od do . To samo dotyczy następujących rozbieżności. $0$ $1$

Gradient tej funkcji kosztu w odniesieniu do wyjścia sieci neuronowej i pewnej próbki wynosi: $r$

\nabla_{a} C = \frac{\sqrt{a^{L}} - \sqrt{E^{r}}}{\sqrt{2} \sqrt{a^{L}}}

$\nabla_a C = \frac{\sqrt{a^L}-\sqrt{E^r}}{\sqrt{2}\sqrt{a^L}}$

Rozbieżność Kullbacka – Leiblera

Znany również jako Informacyjnego dywergencji , Informacji wzmocnienia , względna entropii , KLIC lub KL dywergencji (patrz tutaj ).

Rozbieżność Kullback – Leibler jest zazwyczaj oznaczana jako ,

D_{K L} (P ‖ Q) = \sum_{i} P (i) \ln \frac{P (i)}{Q (i)}

$D_{\mathrm{KL}}(P\|Q) = \sum_i P(i) \, \ln\frac{P(i)}{Q(i)}$

gdzie jest miarą danych utracone, gdy oznacza przybliżenie . W ten sposób chcemy ustawić i , ponieważ chcemy zmierzyć, jak wiele informacji jest stracone, gdy używamy zbliżenie . To nam daje $D_{\mathrm{KL}}(P\|Q)$ $Q$ $P$ $P=E^i$ $Q=a^L$ $a^i_j$ $E^i_j$

C_{K L} (W, B, S^{r}, E^{r}) = \sum_{j} E_{j}^{r} \log \frac{E_{j}^{r}}{a_{j}^{L}}

$C_{KL}(W, B, S^r, E^r)=\sum\limits_jE^r_j \log \frac{E^r_j}{a^L_j}$

Inne różnice tu stosować tę samą ideę wyznaczenia i . $P=E^i$ $Q=a^L$

Gradient tej funkcji kosztu w odniesieniu do wyjścia sieci neuronowej i pewnej próbki wynosi: $r$

\nabla_{a} C = - \frac{E^{r}}{a^{L}}

$\nabla_a C = -\frac{E^r}{a^L}$

Uogólniona dywergencja Kullbacka-Leiblera

Od tutaj .

C_{G K L} (W, B, S^{r}, E^{r}) = \sum_{j} E_{j}^{r} \log \frac{E_{j}^{r}}{a_{j}^{L}} - \sum_{j} (E_{j}^{r}) + \sum_{j} (a_{j}^{L})

$C_{GKL}(W, B, S^r, E^r)=\sum\limits_j E^r_j \log \frac{E^r_j}{a^L_j} -\sum\limits_j(E^r_j) + \sum\limits_j(a^L_j)$

Gradient tej funkcji kosztu w odniesieniu do wyjścia sieci neuronowej i pewnej próbki wynosi: $r$

\nabla_{a} C = \frac{a^{L} - E^{r}}{a^{L}}

$\nabla_a C = \frac{a^L-E^r}{a^L}$

Odległość Itakura – Saito

Również stąd .

C_{G K L} (W, B, S^{r}, E^{r}) = \sum_{j} (\frac{E_{j}^{r}}{a_{j}^{L}} - \log \frac{E_{j}^{r}}{a_{j}^{L}} - 1)

$C_{GKL}(W, B, S^r, E^r)= \sum_j \left(\frac {E^r_j}{a^L_j} - \log \frac{E^r_j}{a^L_j} - 1 \right)$

Gradient tej funkcji kosztu w odniesieniu do wyjścia sieci neuronowej i pewnej próbki wynosi: $r$

\nabla_{a} C = \frac{a^{L} - E^{r}}{{(a^{L})}^{2}}

$\nabla_a C = \frac{a^L-E^r}{\left(a^L\right)^2}$

Gdzie . Innymi słowy, jest po prostu równa kwadratury każdy element . $\left(\left(a^L\right)^2\right)_j = a^L_j \cdot a^L_j$ $\left( a^L\right) ^2$ $a^L$

— Phylliida
źródło

Dzięki za udostępnienie, możesz również rozważyć: github.com/torch/nn/blob/master/doc/criterion.md

— Yannis Assael

masz mały błąd w mianowniku pochodnej cross-entropii, powinna ona być a*(1-a)niea*(1+a)

— Amro

Fajnie byłoby również pokazać funkcję utraty pinballu, aby zminimalizować kwantyle błędów zamiast średniego błędu. Bardzo stosowany w systemach wspomagania decyzji.

— Ricardo Cruz,

gdzie mogę zobaczyć wykresy dla nich?

— coiso

W odniesieniu do funkcji kosztu kwadratowego należy zauważyć, że „średni błąd kwadratu” „maksymalne prawdopodobieństwo” „błąd kwadratu sumy”. Autorzy mogą używać nazwy (niepoprawnie) zamiennie, ale to nie to samo.

\neq

$\neq$

\neq

$\neq$

— Jon

Nie mam reputacji do komentowania, ale w ostatnich 3 gradientach występują błędy podpisu.

W dywergencji KL To ten sam błąd znaku pojawia się w Uogólnionej dywergencji KL.

\begin{aligned} C & = \sum_{j} E_{j} \log (E_{j} / a_{j}) \\ = \sum_{j} E_{j} \log (E_{j}) - E_{j} \log (a_{j}) \\ d C & = - \sum_{j} E_{j} d \log (a_{j}) \\ = - \sum_{j} (E_{j} / a_{j}) d a_{j} \\ \nabla_{a} C & = \frac{- E}{a} \end{aligned}

$\eqalign{ C &= \sum_j E_j\log(E_j/a_j) \cr &= \sum_j E_j\log(E_j) - E_j\log(a_j) \cr\cr dC &= -\sum_j E_j\,\,d\log(a_j) \cr &= -\sum_j (E_j/a_j)\,da_j \cr\cr \nabla_a C &= \frac{-E}{a} \cr\cr }$

W odległości Itakura-Saito

\begin{aligned} C & = \sum_{j} (E_{j} / a_{j}) - \log (E_{j} / a_{j}) - 1 \\ = \sum_{j} (E_{j} / a_{j}) - \log (E_{j}) + \log (a_{j}) - 1 \\ d C & = \sum_{j} (- E_{j} / a_{j}^{2}) d a_{j} + d \log (a_{j}) \\ = \sum_{j} (1 / a_{j}) d a_{j} - (E_{j} / a_{j}^{2}) d a_{j} \\ = \sum_{j} (a_{j} - E_{j}) / a_{j}^{2} d a_{j} \\ \nabla_{a} C & = \frac{a - E}{(a)^{2}} \end{aligned}

$\eqalign{ C &= \sum_j (E_j/a_j) - \log(E_j/a_j) - 1 \cr &= \sum_j (E_j/a_j) - \log(E_j) + \log(a_j) -1 \cr\cr dC &= \sum_j (-E_j/a^2_j)\,da_j + d\log(a_j) \cr &= \sum_j (1/a_j)\,da_j - (E_j/a^2_j)\,da_j \cr &= \sum_j (a_j-E_j)/a^2_j\,\,\,da_j \cr\cr \nabla_a C &= \frac{a-E}{(a)^2} \cr }$

— szczery
źródło