Motywowanie esicy jednostki wyjściowe w sieciach neuronowych zaczynające nieznormalizowanych prawdopodobieństw dziennika liniowy i

12

Tło: Studiuję rozdział 6 głębokiego uczenia się autorstwa Iana Goodfellowa, Yoshui Bengio i Aarona Courville'a. W sekcji 6.2.2.2 (strony 182 z 183, które można obejrzeć tutaj ) zastosowanie sigmoid do wyjścia jest uzasadnione. $P(y=1|x)$

Podsumowując, niektóre materiały pozwalają, by był neuronem wyjściowym przed zastosowaniem aktywacji, gdzie jest wyjściem poprzedniej ukrytej warstwy, jest wektorem ciężarów, a jest skalarem skalarnym. Wektor wejściowy jest oznaczony (którego jest funkcją), a wartość wyjściowa jest oznaczona gdzie jest funkcją sigmoidalną. Książka chce zdefiniować rozkład prawdopodobieństwa dla za pomocą wartości . Z drugiego akapitu strony 183:

z = w^{T} h + b

$z = w^Th+b$

h

$h$

w

$w$

b

$b$

x

$x$

h

$h$

y = ϕ (z)

$y=\phi(z)$

ϕ

$\phi$

y

$y$

z

$z$

W tej chwili pomijamy zależność od aby omówić, jak zdefiniować rozkład prawdopodobieństwa dla za pomocą wartości . Sigmoid można motywować, konstruując nienormalizowany rozkład prawdopodobieństwa , który nie sumuje się do 1. Możemy następnie podzielić przez odpowiednią stałą, aby uzyskać prawidłowy rozkład prawdopodobieństwa. Jeśli zaczniemy od założenia, że nienormalizowane prawdopodobieństwa logarytmiczne są liniowe w i , możemy potęgować potęgowanie, aby uzyskać nietypowe prawdopodobieństwa. Następnie normalizujemy się, aby zobaczyć, że daje to rozkład Bernoulliego kontrolowany przez sigmoidalną transformację z: $x$ $y$ $z$ $\tilde P(y)$ $y$ $z$
$\begin{aligned} \log \tilde{P} (y) & = y z \\ \tilde{P} (y) & = \exp (y z) \\ P (y) & = \frac{\exp (y z)}{\sum_{y^{'} = 0}^{1} \exp (y^{'} z)} \\ P (y) & = ϕ ((2 y - 1) z) \end{aligned}$ $\begin{align} \log\tilde P(y) &= yz \\ \tilde P(y) &= \exp(yz) \\ P(y) &= \frac{\exp(yz)}{\sum_{y'=0}^1 \exp(y'z) } \\ P(y) &= \phi((2y-1)z) \end{align}$

Pytania: Mam wątpliwości co do dwóch rzeczy, szczególnie pierwszej:

Skąd się bierze początkowe założenie? Dlaczego nieznormalizowanych prawdopodobieństwo dziennika liniowa i ? Czy ktoś może dać mi trochę informacji na temat tego, jak autorzy zaczęli od ? $y$ $z$ $\log\tilde P(y) = yz$
Jak przebiega ostatnia linia?

neural-networks deep-learning

— HBeel
źródło

8

Istnieją dwa możliwe wyniki dla . Jest to bardzo ważne, ponieważ ta właściwość zmienia znaczenie mnożenia. Istnieją dwa możliwe przypadki: $y \in \{0, 1\}$

\begin{aligned} \log \tilde{P} (y = 1) & = z \\ \log \tilde{P} (y = 0) & = 0 \end{aligned}

$\begin{align} \log\tilde P(y=1) &= z \\ \log\tilde P(y=0) &= 0 \\ \end{align}$

Ponadto należy zauważyć, że nieznormalizowane prawdopodobieństwo logarytmiczne dla jest stałe. Ta właściwość wywodzi się z głównego założenia. Zastosowanie dowolnej funkcji deterministycznej do stałej wartości da stały wynik. Ta właściwość uprości ostateczną formułę, gdy przeprowadzimy normalizację w odniesieniu do wszystkich możliwych prawdopodobieństw, ponieważ musimy tylko znać tylko nietypowe prawdopodobieństwo dla a dla to zawsze stała. A ponieważ dane wyjściowe z sieci z nietypowym prawdopodobieństwem logarytmicznym będziemy potrzebować tylko jednego wyjścia, ponieważ drugie przyjmuje się za stałe. $y=0$ $y=1$ $y=0$

Następnie stosujemy potęgowanie do nietypowego prawdopodobieństwa logarytmu, aby uzyskać nietypowe prawdopodobieństwo.

\begin{aligned} \tilde{P} (y = 1) & = e^{z} \\ \tilde{P} (y = 0) & = e^{0} = 1 \end{aligned}

$\begin{align} \tilde P(y=1) &= e ^ z \\ \tilde P(y=0) &= e ^ 0 = 1 \end{align}$

Następnie normalizujemy prawdopodobieństwa, dzieląc każde nietypowe prawdopodobieństwo przez sumę wszystkich możliwych nietypowych prawdopodobieństw.

\begin{aligned} P (y = 1) = \frac{e^{z}}{1 + e^{z}} \\ P (y = 0) = \frac{1}{1 + e^{z}} \end{aligned}

$\begin{align} P(y=1) = \frac{e ^ z}{1 + e ^ z} \\ P(y=0) = \frac{1}{1 + e ^ z} \end{align}$

Interesuje nas tylko , ponieważ to właśnie oznacza prawdopodobieństwo funkcji sigmoidalnej. Uzyskana funkcja nie wygląda jak sigmoid na pierwszy rzut oka, ale są one równe i łatwo je pokazać. $P(y=1)$

\begin{aligned} P (y = 1) = \frac{e^{x}}{1 + e^{x}} = \frac{1}{\frac{e^{x} + 1}{e^{x}}} = \frac{1}{1 + \frac{1}{e^{x}}} = \frac{1}{1 + e^{- x}} \end{aligned}

$\begin{align} P(y=1) = \frac{e ^ x}{1 + e ^ x} = \frac{1}{\frac{e ^ x + 1}{e ^ x}} = \frac{1}{1 + \frac{1}{e ^ x}} = \frac{1}{1 + e ^ {-x}} \end{align}$

Ostatnie zdanie może na początku być mylące, ale jest to tylko sposób na pokazanie, że ta ostateczna funkcja prawdopodobieństwa jest sigmoidem. Wartość konwertuje na i na (lub możemy powiedzieć, że byłby bez zmian). $(2y−1)$ $0$ $-1$ $1$ $1$

P (y) = σ ((2 y - 1) z) = {\begin{cases} σ (z) = \frac{1}{1 + e^{- z}} = \frac{e^{z}}{1 + e^{z}} & when y = 1 \\ σ (- z) = \frac{1}{1 + e^{- (- z)}} = \frac{1}{1 + e^{z}} & when y = 0 \end{cases}

$P(y) = \sigma((2y - 1)z) = \begin{cases} \sigma(z) = \frac{1}{1 + e ^ {-z}} = \frac{e ^ z}{1 + e ^ z} & \text{when } y = 1 \\ \sigma(-z) = \frac{1}{1 + e ^ {-(-z)}} = \frac{1}{1 + e ^ z} & \text{when } y = 0 \\ \end{cases}$

Jak widzimy, jest to tylko sposób na pokazanie relacji między i $\sigma$ $P(y)$

— itdxer
źródło

„Ponadto ważne jest, aby zauważyć, że nienormalizowane prawdopodobieństwo logarytmiczne dla jest stałe. Ta właściwość wywodzi się z głównego założenia.” Zakładamy, że już zdecydowaliśmy, że ?

y = 0

$y=0$

y = 1

$y=1$

— HBeel,

Myślę, że moje zamieszanie wynikało z faktu, że sigmoid daje modelowi prawdopodobieństwo niezależnie od rzeczywistej etykiety. Dzięki!

y = 1

$y=1$

— HBeel,

Nie chcę być gruba, ale jak tu jest liniowego w i . Spodziewałbym się czegoś w postaci . Zdaję sobie sprawę, że się do produktu dałoby sumę, która zbliżyłaby mnie do liniowości, ale nie wydaje się to być bezpośrednie na podstawie tego, co stwierdził autor.

y \times z

$y\times z$

y

$y$

z

$z$

a y + b z + c

$ay + bz + c$

\log

$\log$

y z

$yz$

— zebullon,

Rozumiem, to interesujące pytanie. Nie zwracałem uwagi na to stwierdzenie, kiedy po raz pierwszy przeczytałem pytanie. Teraz też wygląda mi to dziwnie. Jednym z problemów jest to, że zmienna binarna y nie jest pewna, jak sprawdzić właściwości funkcji liniowej w tych okolicznościach. Myślę, że będzie to miało sens, jeśli zadasz osobne pytania, być może ktoś wyjaśni ci, dlaczego zostało napisane w ten sposób.

— itdxer

2

Uważam również, że ten fragment książki jest trudny do naśladowania, a powyższa odpowiedź itdxer zasługuje na sporo czasu, aby go zrozumieć, także dla kogoś, kto nie ma wystarczającej znajomości prawdopodobieństwa i myślenia matematycznego. Zrobiłem to jednak, czytając odpowiedź wstecz, więc zacznij od sigmoidu z

\begin{aligned} P (y = 1) = \frac{e^{z}}{1 + e^{z}} = \frac{1}{1 + e^{- z}} \end{aligned}

$\begin{align} P(y=1) = \frac{e ^ z}{1 + e ^ z} = \frac{1}{1 + e ^ {-z}} \end{align}$

i spróbuj wrócić do.

\begin{aligned} \log \tilde{P} (y) & = y z \end{aligned}

$\begin{align} \log\tilde P(y) &= yz \end{align}$

To ma sens, dlaczego zaczęli wyjaśniać od yz - jest to zgodne z projektem, tak samo jak wersja ostateczna

\begin{aligned} σ ((2 y - 1) z) \end{aligned}

$\begin{align} \sigma((2y-1)z) \end{align}$

przez konstrukcję pozwala uzyskać -1 dla y = 0 i 1 dla y = 1, które są jedynymi możliwymi wartościami y pod Bernoullim.

— Jakub Jurek
źródło

0

Oto bardziej formalne sformułowanie, które spodoba się osobom z teoretyką teoretyczną.

Niech będzie rv Bernoulliego i niech oznacza miarę przesunięcia do , tj. Dla , i niech oznacza jego niezormalizowany odpowiednik. $Y$ $P_Y$ $y\in \{0,1\}$ $P_Y(y)=P(Y=y)$ $\tilde P_Y$

Mamy następujący łańcuch implikacji:

\begin{aligned} \log {\tilde{P}}_{Y} (y) = y z & ⟹ {\tilde{P}}_{Y} (y) = \exp (y z) \\ ⟹ P_{Y} (y) = \frac{e^{y z}}{e^{0 \cdot z} + e^{1 \cdot z}} = \frac{e^{y z}}{1 + e^{z}} \\ ⟹ P_{Y} (y) = y \frac{e^{z}}{1 + e^{z}} + (1 - y) \frac{1}{1 + e^{z}} \\ ⟹ P_{Y} (y) = y σ (z) + (1 - y) σ (- z) \\ ⟹ P_{Y} (y) = σ ((2 y - 1) z) \end{aligned}

$\begin{aligned} \log \tilde P_Y(y)=yz &\implies \tilde P_Y(y) = \exp(yz)\\ &\implies P_Y(y) = \frac{e^{yz}}{e^{0\cdot z}+e^{1\cdot z}}=\frac{e^{yz}}{1+e^{ z}}\\ &\implies P_Y(y) =y\frac{e^{z}}{1+e^{ z}} + (1-y)\frac{1}{1+e^{ z}}\\ &\implies P_Y(y) =y\sigma(z) + (1-y)\sigma(-z)\\ &\implies P_Y(y) = \sigma((2y-1)z) \end{aligned}$

Ostatnia równość to inteligentny sposób mapowania na $\{0,1\}$ $\{-1,1\}$

— Gabriel Romon
źródło