Zapomnij o warstwie w rekurencyjnej sieci neuronowej (RNN) -

Próbuję obliczyć wymiary każdej zmiennej w RNN w warstwie zapomnienia, jednak nie jestem pewien, czy jestem na dobrej drodze. Następne zdjęcie i równanie pochodzi z postu na blogu Colah „Understanding LSTM Networks” :

gdzie:

oznacza wielkośćwektora $x_t$ $m*1$
jest ukrytym stanem rozmiaru wektor $h_{t-1}$ $n*1$
jest konkatenacją (na przykład, jeśli , to ) $[x_t, h_{t-1}]$ $x_t=[1, 2, 3], h_{t-1}=[4, 5, 6]$ $[x_t, h_{t-1}]=[1, 2, 3, 4, 5, 6]$
jest wagamimacierzywielkości , gdzie jest liczbą stanów komórek (jeśli , a w powyższym przykładzie, a jeśli mamy 3 stany komórek, to Matryca ) $w_f$ $k*(m+n)$ $k$ $m=3$ $n=3$ $w_f=3*3$
jest nastawieniemwektorawielkości , gdzie jest liczbą stanów komórek (ponieważ jak w powyższym przykładzie, to jest wektorem ). $b_f$ $k*1$ $k$ $k=3$ $b_f$ $3*1$

Jeśli ustawimy na: $w_f$

[\begin{matrix} 1 & 2 & 3 & 4 & 5 & 6 \\ 5 & 6 & 7 & 8 & 9 & 10 \\ 3 & 4 & 5 & 6 & 7 & 8 \end{matrix}]

$\begin{bmatrix} 1 & 2 & 3 & 4 & 5 & 6 \\ 5 & 6 & 7 & 8 & 9 & 10 \\ 3 & 4 & 5 & 6 & 7 & 8 \\ \end{bmatrix}$

I to: $b_f$ $[1, 2, 3]$

Następnie $W_f . [h_{t-1}, x_t] =$

[\begin{matrix} 1 & 2 & 3 & 4 & 5 & 6 \\ 5 & 6 & 7 & 8 & 9 & 10 \\ 3 & 4 & 5 & 6 & 7 & 8 \end{matrix}] . [\begin{matrix} 1 \\ 2 \\ 3 \\ 4 \\ 5 \\ 6 \end{matrix}] = [\begin{matrix} 91 & 175 & 133 \end{matrix}]

$\begin{bmatrix} 1 & 2 & 3 & 4 & 5 & 6 \\ 5 & 6 & 7 & 8 & 9 & 10 \\ 3 & 4 & 5 & 6 & 7 & 8 \\ \end{bmatrix} . \begin{bmatrix} 1 \\ 2 \\ 3 \\ 4 \\ 5 \\ 6 \\ \end{bmatrix} =\begin{bmatrix} 91 & 175 & 133\end{bmatrix}$

Następnie możemy dodać odchylenie, $W_f . [h_{t-1}, x_t] + b_f=$

[\begin{matrix} 91 & 175 & 133 \end{matrix}] + [\begin{matrix} 1 & 2 & 3 \end{matrix}] = [\begin{matrix} 92 & 177 & 136 \end{matrix}]

$\begin{bmatrix} 91 & 175 & 133\end{bmatrix} + \begin{bmatrix} 1 & 2 & 3\end{bmatrix}=\begin{bmatrix} 92 & 177 & 136\end{bmatrix}$

$\frac{1}{1+e^{-x}}$ $x=\begin{bmatrix} 92 & 177 & 136\end{bmatrix}$

[\begin{matrix} 1 & 1 & 1 \end{matrix}]

$\begin{bmatrix} 1 & 1 & 1\end{bmatrix}$

$C_{t-1}$ $k=3$

Czy powyższe założenie jest prawidłowe?

Oznacza to również, że liczba stanu komórki i stanu ukrytego jest taka sama?

neural-network rnn

— użytkownik1157751
źródło

Świetne pytanie!

tl; dr: Stan komórki i stan ukryty to dwie różne rzeczy, ale stan ukryty zależy od stanu komórki i faktycznie mają ten sam rozmiar.

Dłuższe wyjaśnienie

Różnicę między nimi widać na poniższym schemacie (część tego samego bloga):

Stan komórki to pogrubiona linia biegnąca z zachodu na wschód przez szczyt. Cały zielony blok nazywa się „komórką”.

Stan ukryty z poprzedniego kroku czasowego jest traktowany jako część danych wejściowych w bieżącym kroku czasowym.

Jednak nieco trudniej jest dostrzec zależność między nimi bez wykonania pełnego przewodnika. Zrobię to tutaj, aby zapewnić inną perspektywę, ale blog jest pod dużym wpływem. Moja notacja będzie taka sama i wykorzystam obrazy z bloga w moim objaśnieniu.

Lubię kolejność operacji nieco inaczej niż na blogu. Osobiście, na przykład zaczynając od bramki wejściowej. Przedstawię ten punkt widzenia poniżej, ale pamiętaj, że blog może być najlepszym sposobem na skonfigurowanie LSTM obliczeniowo, a to wyjaśnienie jest czysto koncepcyjne.

Oto co się dzieje:

Brama wejściowa

$t$ $x_t$ $h_{t-1}$

$x_t = [1, 2, 3]$ $h_t = [4, 5, 6]$

$x_t$ $h_{t-1}$ $[1, 2, 3, 4, 5, 6]$

$W_i$ $W_i \cdot [x_t, h_{t-1}] + b_i$ $W_i$ $b_i$

Załóżmy, że przechodzimy od sześciowymiarowego wejścia (długość skonkatenowanego wektora wejściowego) do trójwymiarowej decyzji o tym, które stany zaktualizować. Oznacza to, że potrzebujemy macierzy wagowej 3x6 i wektora odchylenia 3x1. Podajmy te wartości:

$W_i = \begin{bmatrix} 1 & 1 & 1 & 1 & 1 & 1 \\ 2 & 2 & 2 & 2 & 2 & 2 \\ 3 & 3 & 3 & 3 & 3 & 3\end{bmatrix}$

$b_i = \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix}$

Obliczenia będą następujące:

$\begin{bmatrix} 1 & 1 & 1 & 1 & 1 & 1 \\ 2 & 2 & 2 & 2 & 2 & 2 \\ 3 & 3 & 3 & 3 & 3 & 3\end{bmatrix} \cdot \begin{bmatrix} 1 \\ 2 \\ 3 \\ 4 \\5 \\6 \end{bmatrix} + \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix} = \begin{bmatrix} 22 \\ 42 \\ 62 \end{bmatrix}$

$i_t = \sigma (W_i \cdot [x_t, h_{t-1}] + b_i)$

$\sigma(x) = \frac{1}{1 + exp(-x)}$ $x$

$\sigma(\begin{bmatrix} 22 \\ 42 \\ 62 \end{bmatrix}) = [\frac{1}{1 + exp(-22)}, \frac{1}{1 + exp(-42)}, \frac{1}{1 + exp(-62)}] = [1, 1, 1]$

W języku angielskim oznacza to, że zaktualizujemy wszystkie nasze stany.

Brama wejściowa ma drugą część:

$\tilde{C_t} = tanh(W_C[x_t, h_{t-1}] + b_C)$

Celem tej części jest obliczenie, w jaki sposób zaktualizowalibyśmy stan, gdybyśmy to zrobili. Jest to wkład z nowego wejścia w tym kroku czasowym do stanu komórki. Obliczenia odbywają się zgodnie z tą samą procedurą zilustrowaną powyżej, ale z jednostką tanh zamiast jednostki sigmoid.

$\tilde{C_t}$ $i_t$

$i_t$ $\tilde{C_t}$

Potem przychodzi brama zapomnienia, która była sednem twojego pytania.

Brama zapomnienia

Celem bramki zapomnienia jest usunięcie wcześniej wyuczonych informacji, które nie są już istotne. Przykład podany na blogu jest oparty na języku, ale możemy również pomyśleć o przesuwanym oknie. Jeśli modelujesz szeregi czasowe, które są naturalnie reprezentowane przez liczby całkowite, takie jak liczba zakaźnych osobników w danym obszarze podczas wybuchu choroby, być może po wygaśnięciu choroby w danym obszarze nie będziesz już dłużej zastanawiać się nad tym obszarem, gdy myśląc o następnej chorobie.

Podobnie jak warstwa wejściowa, warstwa zapomnienia przyjmuje stan ukryty z poprzedniego kroku czasu i nowe wejście z bieżącego kroku czasu i łączy je. Chodzi o to, aby zdecydować stochastycznie, o czym zapomnieć i o czym pamiętać. W poprzednim obliczeniu pokazałem wyjście warstwy sigmoidalnej wszystkich 1, ale w rzeczywistości było bliżej 0,999 i zaokrągliłem w górę.

Obliczenia przypominają to, co zrobiliśmy w warstwie wejściowej:

$f_t = \sigma(W_f [x_t, h_{t-1}] + b_f)$

To da nam wektor wielkości 3 o wartościach od 0 do 1. Udawajmy, że dał nam:

$[0.5, 0.8, 0.9]$

Następnie decydujemy stochastycznie na podstawie tych wartości, które z tych trzech części informacji należy zapomnieć. Jednym ze sposobów jest wygenerowanie liczby z jednolitego rozkładu (0, 1) i jeśli liczba ta jest mniejsza niż prawdopodobieństwo „włączenia” jednostki (0,5, 0,8 i 0,9 dla jednostek 1, 2 i 3 odpowiednio), a następnie włączamy tę jednostkę. W takim przypadku oznaczałoby to, że zapominamy o tych informacjach.

Szybka uwaga: warstwa wejściowa i warstwa zapomnienia są niezależne. Gdybym był zakładem bukmacherskim, postawiłbym się, że to dobre miejsce do równoległości.

Aktualizacja stanu komórki

Teraz mamy wszystko, czego potrzebujemy, aby zaktualizować stan komórki. Pobieramy kombinację informacji z danych wejściowych i bramek zapomnienia:

$C_t = f_t \circ C_{t-1} + i_t \circ \tilde{C_t}$

$\circ$

Na bok: produkt Hadamard

$x_1 = [1, 2, 3]$ $x_2 = [3, 2, 1]$

$x_1 \circ x_2 = [(1 \cdot 3), (2 \cdot 2), (3 \cdot 1)] = [3, 4, 3]$

Koniec na bok.

W ten sposób łączymy to, co chcemy dodać do stanu komórki (dane wejściowe) z tym, co chcemy usunąć ze stanu komórki (zapomnieć). Wynikiem jest nowy stan komórki.

Bramka wyjściowa

To da nam nowy ukryty stan. Zasadniczo celem bramki wyjściowej jest zdecydowanie, jakie informacje chcemy uwzględnić w następnej części modelu przy aktualizacji kolejnego stanu komórki. Przykładem na blogu jest znowu język: jeśli rzeczownik jest w liczbie mnogiej, odmienianie czasownika w następnym kroku ulegnie zmianie. W modelu chorobowym, jeśli wrażliwość osobników na danym obszarze jest inna niż na innym obszarze, prawdopodobieństwo wystąpienia infekcji może się zmienić.

Warstwa wyjściowa ponownie przyjmuje te same dane wejściowe, ale następnie uwzględnia zaktualizowany stan komórki:

$o_t = \sigma(W_o [x_t, h_{t-1}] + b_o)$

Ponownie daje to nam wektor prawdopodobieństwa. Następnie obliczamy:

$h_t = o_t \circ tanh(C_t)$

Zatem bieżący stan komórki i bramka wyjściowa muszą uzgodnić, co wyprowadzić.

$tanh(C_t)$ $[0, 1, 1]$ $o_t$ $[0, 0, 1]$ $[0, 0, 1]$

$h_t$ $y_t = \sigma(W \cdot h_t)$

$h_t$

Istnieje wiele wariantów LSTM, ale obejmuje to najważniejsze!

— StatsSorceress
źródło

Dzięki za odpowiedź! Mam jedno dodatkowe pytanie, czy nie masz nic przeciwko. Głęboka sieć neuronowa może być głęboka, ponieważ pochodną ReLU jest 1 (jeśli wynik jest większy niż 0). Czy to samo dotyczy również tej komórki? Nie jestem pewien, jak Tanh i Sigmoid mogą mieć stałą pochodną 1?

— user1157751

Cała przyjemność po mojej stronie! Sieć neuronowa jest uważana za „głęboką”, jeśli ma więcej niż jedną ukrytą warstwę. Pochodne funkcji aktywacyjnych (tanh, sigmoid, ReLU) wpływają na sposób szkolenia sieci. Jak mówisz, ponieważ ReLU ma stały spadek, jeśli jego wejście jest większe niż 0, jego pochodna wynosi 1, jeśli znajdujemy się w tym obszarze funkcji. Jednostki Tanh i sigmoidowe mają pochodną bliską 1, jeśli jesteśmy w środku regionu aktywacji, ale ich pochodna nie będzie stała. Może powinienem

— napisać

Czy możesz podać przykład ich pochodnej blisko 1 w regionie aktywacyjnym? Widziałem wiele zasobów, które mówią o pochodnej, ale nie ma matematyki?

— user1157751

Dobry pomysł, ale zajmie mi trochę czasu napisanie odpowiedniego postu na ten temat. Tymczasem pomyśl o kształcie funkcji tanh - jest to wydłużone „S”. W środku znajduje się najwyższa pochodna. Gdy S jest płaskie (ogony S), pochodna wynosi 0. Widziałem jedno źródło, w którym sigmoidy mają maksymalną pochodną 0,25, ale nie mam równoważnego związku dla tanh.

— StatsSressress

Część, której nie rozumiem, jest inna niż ReLU ze stałą 1 pochodną, gdzie x> 0, ale sigmoid i tanh miały zmienną wartość dla obu jej pochodnych. Jak może to być „stałe”?

— user1157751