Jakie jest intuicyjne wyjaśnienie Echo State Networks?

17

Jestem nowy w Recurrent Neural Networks (RNN) i wciąż uczę się pojęć. Rozumiem na poziomie abstrakcyjnym, że Echo State Network (ESN) jest w stanie (ponownie) wytwarzać sekwencję sygnałów wejściowych, tj. Sygnał, nawet po ich usunięciu. Jednak artykuł Scholarpedia był dla mnie zbyt trudny do zrozumienia i zrozumienia.

Czy ktoś może wyjaśnić matematyczny sposób uczenia się w najprostszej możliwej formie.

neural-networks

— tejaskhot
źródło

17

Echo State Network jest przykładem bardziej ogólnej koncepcji Reservoir Computing . Podstawową ideą ESN jest uzyskanie korzyści z RNN (przetworzyć sekwencję sygnałów wejściowych, które są od siebie zależne, tj. Zależności czasowe jak sygnał), ale bez problemów uczenia tradycyjnego RNN, takiego jak problem zanikającego gradientu .

ESN osiągają to poprzez posiadanie stosunkowo dużego rezerwuaru słabo połączonych neuronów za pomocą sigmoidalnej funkcji przenoszenia (w stosunku do wielkości wejściowej, około 100-1000 jednostek). Połączenia w zbiorniku są przypisywane raz i są całkowicie losowe; ciężary zbiornika nie są szkolone. Neurony wejściowe są podłączone do zbiornika i zasilają aktywacje wejściowe do zbiornika - one również mają przypisane niewyuczone losowe ciężary. Jedynymi trenowanymi wagami są wyjściowe wagi, które łączą zbiornik z neuronami wyjściowymi.

W trakcie szkolenia dane wejściowe będą podawane do zbiornika, a dane wyjściowe nauczyciela zostaną zastosowane do jednostek wyjściowych. Stany zbiornika są rejestrowane w czasie i przechowywane. Po zastosowaniu wszystkich danych treningowych można zastosować proste zastosowanie regresji liniowej między przechwyconymi stanami zbiornika a wyjściowymi wartościami docelowymi. Te wagi wyjściowe można następnie włączyć do istniejącej sieci i wykorzystać do nowatorskich danych wejściowych.

Chodzi o to, że rzadkie przypadkowe połączenia w zbiorniku pozwalają poprzednim echom „echo” nawet po ich przejściu, tak że jeśli sieć otrzyma nowatorski sygnał wejściowy, podobny do czegoś, na którym trenował, dynamika w zbiorniku zacznie postępuj zgodnie z trajektorią aktywacji odpowiednią dla danych wejściowych i w ten sposób może zapewnić dopasowany sygnał do tego, na czym trenował, a jeśli jest dobrze przeszkolony, będzie w stanie uogólnić na podstawie tego, co już widział, zgodnie z trajektoriami aktywacji, które miałyby sens biorąc pod uwagę sygnał wejściowy napędzający zbiornik.

Zaletą tego podejścia jest niewiarygodnie prosta procedura treningowa, ponieważ większość ciężarów przypisywana jest tylko raz i losowo. Są jednak w stanie uchwycić złożoną dynamikę w czasie i są w stanie modelować właściwości układów dynamicznych. Zdecydowanie najbardziej pomocne dokumenty, które znalazłem na ESN, to:

Samouczek na temat szkolenia RNN autorstwa Herberta Jaegera (kurator strony Scholarpedia w ESN)
Praktyczny przewodnik dotyczący stosowania sieci stanów Echo autorstwa Mantasa Lukoševičiusa

Obaj mają łatwe do zrozumienia objaśnienia wraz z formalizmem i znakomite porady dotyczące tworzenia implementacji wraz z wytycznymi dotyczącymi wyboru odpowiednich wartości parametrów.

AKTUALIZACJA: Książka Deep Learning autorstwa Goodfellow, Bengio i Courville zawiera nieco bardziej szczegółową, ale wciąż przyjemną dyskusję na wysokim poziomie dotyczącą Echo State Networks. Sekcja 10.7 omawia znikający (i eksplodujący) problem gradientu oraz trudności w uczeniu się zależności długoterminowych. Rozdział 10.8 dotyczy Echo State Networks. W szczególności szczegółowo omawia, dlaczego tak ważne jest, aby wybrać masy zbiorników, które mają odpowiednią wartość promienia widmowego - współpracuje z nieliniowymi jednostkami aktywującymi, aby zwiększyć stabilność, a jednocześnie propagować informacje w czasie.

— adamconkey
źródło

1

Uczenie się w ESN nie jest przede wszystkim zmuszane do dostosowywania wag, a bardziej odpowiednio warstwa wyjściowa uczy się, które dane wyjściowe produkować dla bieżącego stanu sieci. Stan wewnętrzny opiera się na dynamice sieci i nazywa się dynamicznym stanem zbiornika. Aby zrozumieć, w jaki sposób kształtują się stany zbiornika, musimy przyjrzeć się topologii ESN.

Jednostki wejściowe są połączone z neuronami w jednostkach wewnętrznych (jednostkach rezerwuarowych), wagi są inicjowane losowo. Jednostki zbiornikowe są losowo i rzadko połączone, a także mają losowe ciężary. Jednostka wyjściowa jest również podłączona do wszystkich jednostek zbiornikowych, w ten sposób odbiera stan zbiornika i wytwarza odpowiednią moc wyjściową.

$t$ $t$

Zanim wyjaśnimy szczegółowo, jak działa szkolenie, musimy wyjaśnić i zdefiniować kilka rzeczy:

$T$ $t$ $W_{fb}$

Zmienne definicje:

$r$
$o$
$t$
$o$
$T$ $t$ $o$

Wreszcie, jak szczegółowo działa szkolenie ?

$t$ $M$ $t$ $r$ ) rezerwuaru.
$W_{out}$ $M \bullet W_{out} = T -> W_{out} = M \bullet T^{-1}$

Ponieważ nauka jest bardzo szybka, możemy wypróbować wiele topologii sieci, aby uzyskać taką, która dobrze pasuje.

Aby zmierzyć wydajność ESN:

$W_{fb}$
$\left|\left|M \bullet W_{out} – T\right|\right|^2$

Promień spektralny i ESN

Spec-tral $1$

— maniak
źródło