Intuicja za ograniczoną maszyną Boltzmanna (RBM)

Przeszedłem kurs Geoffa Hintona na temat sieci neuronowych na Coursera, a także przez wprowadzenie do ograniczonych maszyn Boltzmanna , ale nadal nie rozumiałem intuicji stojącej za RBM.

Dlaczego musimy obliczać energię w tym urządzeniu? A jakie jest prawdopodobieństwo tego urządzenia? Też widziałem to wideo . Na filmie po prostu napisał równania prawdopodobieństwa i energii przed krokami obliczeniowymi i nigdzie się nie pojawił.

Dodając do powyższego, nie jestem pewien, do czego służy funkcja prawdopodobieństwa?

unsupervised-learning rbm

— Born2Code
źródło

Próbowałem uporządkować pytanie, ale myślę, że wymaga ono więcej pracy. Trzeba wyjaśnić, co należy rozumieć, a dokładniej gdzie utkniesz, w przeciwnym razie sprawa jest zbyt szeroka.

— Neil Slater,

Jedyne, co dostało się do głowy, to trzy kroki, najpierw faza dodatnia, potem faza ujemna, po której następuje rekonstrukcja ciężarów. A co z energiami i funkcją prawdopodobieństwa? jaki jest pożytek tutaj? i ile razy musimy wykonać ten proces (faza dodatnia -> faza ujemna> rekonstrukcja wag)?

— Born2Code,

Odpowiedzi:

KMS są interesującą bestią. Aby odpowiedzieć na twoje pytanie i pobudzić moją pamięć, wyprowadzę KMS i omówię pochodne. Wspomniałeś, że jesteś zdezorientowany co do prawdopodobieństwa, więc moje pochodzenie będzie z perspektywy próby zmaksymalizowania prawdopodobieństwa. Więc zacznijmy.

KMS zawierają dwa różne zestawy neuronów, widocznych i ukrytych, będę oznaczać je $v$ oraz $h$ odpowiednio. Biorąc pod uwagę konkretną konfigurację $v$ i $h$ , mapujemy ją na przestrzeń prawdopodobieństwa.

p (v, h) = \frac{e^{- E (v, h)}}{Z}

$p(v,h) = \frac{e^{-E(v,h)}}{Z}$

Jest jeszcze kilka rzeczy do zdefiniowania. Funkcja zastępcza, której używamy do mapowania z określonej konfiguracji do przestrzeni prawdopodobieństwa, nazywa się funkcją energetyczną . stały jest współczynnik normalizacji w celu zapewnienia, że rzeczywiście mamy map do przestrzeni prawdopodobieństwa. Przejdźmy teraz do tego, czego tak naprawdę szukamy; prawdopodobieństwo zbioru widocznych neuronów, innymi słowy, prawdopodobieństwo naszych danych. $E(v,h)$ $Z$

Z = \sum_{v \in V} \sum_{h \in H} e^{- E (v, h)}

$Z = \sum_{v \in V}\sum_{h \in H}e^{-E(v,h)}$

p (v) = \sum_{h \in H} p (v, h) = \frac{\sum_{h \in H} e^{- E (v, h)}}{\sum_{v \in V} \sum_{h \in H} e^{- E (v, h)}}

$p(v)=\sum_{h \in H}p(v,h)=\frac{\sum_{h \in H}e^{-E(v,h)}}{\sum_{v \in V}\sum_{h \in H}e^{-E(v,h)}}$

Chociaż w tym równaniu jest wiele terminów, sprowadza się ono po prostu do napisania prawidłowych równań prawdopodobieństwa. Mamy nadzieję, że do tej pory, to pomogło Ci zrozumieć, dlaczego musimy funkcję energetyczną obliczyć prawdopodobieństwo, lub co jest robione częściej w nieznormalizowanych prawdopodobieństwa . Wykorzystywane jest nietypowe prawdopodobieństwo, ponieważ obliczenie funkcji podziału jest bardzo kosztowne. $p(v)*Z$ $Z$

Przejdźmy teraz do faktycznej fazy uczenia się KMS. Aby zmaksymalizować prawdopodobieństwo, dla każdego punktu danych musimy wykonać krok gradientu, aby . Aby uzyskać wyrażenia gradientowe, potrzeba trochę akrobatyki matematycznej. Pierwszą rzeczą, którą robimy, jest pobranie dziennika . Odtąd będziemy działać w przestrzeni prawdopodobieństwa dziennika, aby matematyka była wykonalna. $p(v)=1$ $p(v)$

Weźmy gradient względem Paremeters w

\log (p (v)) = \log [\sum_{h \in H} e^{- E (v, h)}] - \log [\sum_{v \in V} \sum_{h \in H} e^{- E (v, h)}]

$\log(p(v))=\log[\sum_{h \in H}e^{-E(v,h)}]-\log[\sum_{v \in V}\sum_{h \in H}e^{-E(v,h)}]$

p (v)

$p(v)$

\begin{aligned} \frac{\partial \log (p (v))}{\partial θ} = & - \frac{1}{\sum_{h^{'} \in H} e^{- E (v, h^{'})}} \sum_{h^{'} \in H} e^{- E (v, h^{'})} \frac{\partial E (v, h^{'})}{\partial θ} \\ + \frac{1}{\sum_{v^{'} \in V} \sum_{h^{'} \in H} e^{- E (v^{'}, h^{'})}} \sum_{v^{'} \in V} \sum_{h^{'} \in H} e^{- E (v^{'}, h^{'})} \frac{\partial E (v, h)}{\partial θ} \end{aligned}

$\begin{align} \frac{\partial \log(p(v))}{\partial \theta}=& -\frac{1}{\sum_{h' \in H}e^{-E(v,h')}}\sum_{h' \in H}e^{-E(v,h')}\frac{\partial E(v,h')}{\partial \theta}\\ & + \frac{1}{\sum_{v' \in V}\sum_{h' \in H}e^{-E(v',h')}}\sum_{v' \in V}\sum_{h' \in H}e^{-E(v',h')}\frac{\partial E(v,h)}{\partial \theta} \end{align}$

Teraz zrobiłem to na papierze i zapisałem równanie półfinałowe, aby nie marnować dużo miejsca na tej stronie. Polecam wyprowadzić te równania samodzielnie. Teraz napiszę kilka równań, które pomogą w kontynuacji naszej pochodnej. Zauważ, że: , i że $Zp(v,h)=e^{-E(v,h')}$ $p(v)=\sum_{h \in H}p(v,h)$ $p(h|v) = \frac{p(v,h)}{p(h)}$

\begin{aligned} \frac{\partial l o g (p (v))}{\partial θ} & = - \frac{1}{p (v)} \sum_{h^{'} \in H} p (v, h^{'}) \frac{\partial E (v, h^{'})}{\partial θ} + \sum_{v^{'} \in V} \sum_{h^{'} \in H} p (v^{'}, h^{'}) \frac{\partial E (v^{'}, h^{'})}{\partial θ} \\ \frac{\partial l o g (p (v))}{\partial θ} & = - \sum_{h^{'} \in H} p (h^{'} | v) \frac{\partial E (v, h^{'})}{\partial θ} + \sum_{v^{'} \in V} \sum_{h^{'} \in H} p (v^{'}, h^{'}) \frac{\partial E (v^{'}, h^{'})}{\partial θ} \end{aligned}

$\begin{align} \frac{\partial log(p(v))}{\partial \theta}&= -\frac{1}{p(v)}\sum_{h' \in H}p(v,h')\frac{\partial E(v,h')}{\partial \theta}+\sum_{v' \in V}\sum_{h' \in H}p(v',h')\frac{\partial E(v',h')}{\partial \theta}\\ \frac{\partial log(p(v))}{\partial \theta}&= -\sum_{h' \in H}p(h'|v)\frac{\partial E(v,h')}{\partial \theta}+\sum_{v' \in V}\sum_{h' \in H}p(v',h')\frac{\partial E(v',h')}{\partial \theta} \end{align}$

I proszę bardzo, uzyskaliśmy oszacowanie maksymalnego prawdopodobieństwa dla RBM, jeśli chcesz, możesz napisać dwa ostatnie warunki przez oczekiwanie na ich odpowiednie warunki (warunkowe i wspólne prawdopodobieństwo).

Uwagi na temat funkcji energetycznej i stochastyczności neuronów.

Jak widać powyżej w mojej pochodnej, pozostawiłem definicję funkcji energii raczej niejasną. A powodem tego jest to, że wiele różnych wersji RBM implementuje różne funkcje energetyczne. Ten, który Hinton opisuje w wykładzie połączonym powyżej i pokazanym przez @ Laurens-Meeus, to:

E (v, h) = - a^{T} v - b^{T} h - v^{T} W h .

$E(v,h)=−a^Tv−b^Th−v^TWh.$

Łatwiej jest uzasadnić powyższe warunki gradientu za pomocą formularza oczekiwania.

\frac{\partial \log (p (v))}{\partial θ} = - \underset{p (h^{'} | v)}{E} \frac{\partial E (v, h^{'})}{\partial θ} + \underset{p (v^{'}, h^{'})}{E} \frac{\partial E (v^{'}, h^{'})}{\partial θ}

$\frac{\partial \log(p(v))}{\partial \theta}= -\mathop{\mathbb{E}}_{p(h'|v)}\frac{\partial E(v,h')}{\partial \theta}+\mathop{\mathbb{E}}_{p(v',h')}\frac{\partial E(v',h')}{\partial \theta}$

Oczekiwanie na pierwszy semestr jest w rzeczywistości bardzo łatwe do obliczenia, i to był geniusz za KMS. Ograniczając połączenie, warunkowe oczekiwanie staje się po prostu propagacją RBM do przodu z zablokowanymi widocznymi jednostkami. Jest to tak zwana faza czuwania w maszynach Boltzmanna. Teraz obliczenie drugiego terminu jest znacznie trudniejsze i zwykle stosuje się do tego metody Monte Carlo. Zapisywanie gradientu za pomocą średnich przebiegów Monte Carlo:

\frac{\partial \log (p (v))}{\partial θ} \approx - ⟨ \frac{\partial E (v, h^{'})}{\partial θ} ⟩_{p (h^{'} | v)} + ⟨ \frac{\partial E (v^{'}, h^{'})}{\partial θ} ⟩_{p (v^{'}, h^{'})}

$\frac{\partial \log(p(v))}{\partial \theta}\approx -\langle \frac{\partial E(v,h')}{\partial \theta}\rangle_{p(h'|v)}+\langle\frac{\partial E(v',h')}{\partial \theta}\rangle_{p(v',h')}$

Obliczenie pierwszego terminu nie jest trudne, jak wspomniano powyżej, dlatego Monte-Carlo wykonuje się w drugim terminie. Metody Monte Carlo wykorzystują losowe kolejne próbkowanie rozkładu, aby obliczyć oczekiwanie (sumę lub całkę). Teraz to losowe próbkowanie w klasycznych RBM definiuje się jako ustawienie jednostki na 0 lub 1 w oparciu o jej prawdopodobieństwo stochastycznie, innymi słowy, otrzymujemy losową jednolitą liczbę, jeśli jest mniejsza niż prawdopodobieństwo neuronów, ustaw ją na 1, jeśli to jest większa niż ustawiona na 0.

— Armen Aghajanyan
źródło

W jaki sposób tworzymy również ukrytą warstwę binarną? Bcoz po operacji funkcji aktywacji otrzymywalibyśmy wartości z zakresu od 0 do 1.

— Born2Code

Zwykle odbywa się to poprzez progowanie aktywacji. Cokolwiek powyżej 0,5, stanie się 1, cokolwiek poniżej będzie zero.

— Armen Aghajanyan,

Ale w tym łączu , w sekcji 3.1: Hinton stwierdził: „ukryta jednostka włącza się, jeśli prawdopodobieństwo jest większe niż liczba losowa równomiernie rozłożona między 0 a 1”. Co to właściwie znaczy? Również w tym łączu mówią: „Wtedy j-ta jednostka jest włączona, jeśli po wybraniu s równomiernie rozłożonej liczby losowej między 0 a 1 okaże się, że jej wartość jest mniejsza niż sig [j]. W przeciwnym razie jest wyłączona”. Nie dostałem tego.

— Born2Code,

????? Jak stwierdzić, czy ta konkretna jednostka jest włączona, czy wyłączona?

— Born2Code,

Dodałem edycję. Sugeruję czytanie na temat metod Monte Carlo, ponieważ stochastyczność tego algorytmu pochodzi właśnie stąd.

— Armen Aghajanyan

Oprócz istniejących odpowiedzi chciałbym porozmawiać o tej funkcji energii i nieco za tym intuicji. Przepraszam, jeśli to jest trochę długie i fizyczne.

Funkcja energii opisuje tak zwany model Isinga , który jest modelem ferromagnetyzmu w kategoriach mechaniki statystycznej / mechaniki kwantowej. W mechanice statystycznej używamy tak zwanego operatora hamiltonowskiego do opisania energii układu kwantowo-mechanicznego. A system zawsze stara się być w stanie o najniższej energii.

Teraz model Isinga zasadniczo opisuje wzajemne pomiędzy elektronami z Spin jednej +1 lub -1 w obecności zewnętrznego pola magnetycznego . Oddziaływanie między dwoma elektronami i jest opisane współczynnikiem . Ten Hamiltona (lub funkcja energii) gdzie $\sigma_k$ $h$ $i$ $j$ $J_{ij}$

\hat{H} = \sum_{i, j} J_{i j} σ_{i} σ_{j} - μ \sum_{j} h_{j} σ_{j}

$\hat{H} = \sum_{i,j} J_{ij} \sigma_i \sigma_j - \mu \sum_j h_j \sigma_j$

\hat{H}

$\hat{H}$ oznacza Hamiltonian. Standardowa procedura się z funkcji energii do prawdopodobieństwa, że system jest w określonym stanie (to jest tutaj: konfiguracja obrotów, np

), Jest użycie rozkład Boltzmanna, który mówi, że w temperaturze

prawdopodobieństwo

układu, że będzie w stanie

z energią

jest określone przez

σ_{1} = + 1, σ_{2} = - 1, . . .

$\sigma_1 = {+1}, \sigma_2 = {-1}, ...$

T

$T$

p_{i}

$p_i$

i

$i$

E_{i}

$E_i$

W tym momencie, należy uznać, że te dwa równania są dokładnie takie same jak w równania filmów przez Hinton iodpowiedź Armen Aghajanyan. To prowadzi nas do pytania:

p_{i} = \frac{\exp (- E_{i} / k T)}{\sum_{i} \exp (- E_{i} / k t)}

$p_i = \frac{\exp(-E_i/kT)}{\sum_{i}\exp(-E_i/kt)}$

Co RBM ma wspólnego z tym kwantowo-mechanicznym modelem ferromagnetyzmu?

Musimy użyć końcowej wielkości fizycznej: entropii. Jak wiemy z termodynamiki, układ osiądzie w stanie z minimalną energią, co również odpowiada stanowi z maksymalną entropią.

$H$ $X$ $X$

H (X) = - \sum_{i} P (x_{i}) \log P (x_{i})

$H(X) = -\sum_i P(x_i) \log P(x_i)$

X

$X$

H

$H$

Wreszcie , wracamy do RBM: Zasadniczo chcemy, aby ten RBM kodował jak najwięcej informacji. Tak więc, ponieważ musimy zmaksymalizować entropię (teoretyczną) w naszym systemie RBM. Jak zaproponował Hopfield w 1982 roku, możemy zmaksymalizować entropię teoretyczno-informacyjną dokładnie tak jak entropia fizyczna: modelując RBM jak model Isinga powyżej i zastosować te same metody, aby zminimalizować energię. I dlatego potrzebujemy tej dziwnej funkcji energetycznej w RBM!

Ładne wyprowadzenie matematyczne w odpowiedzi Armen Aghajanyan pokazuje wszystko, co musimy zrobić, aby zminimalizować energię, maksymalizując w ten sposób entropię i przechowywanie / zapisywanie jak największej ilości informacji w naszym RBM.

_{PS: Proszę, drodzy fizycy, wybaczcie wszelkie nieścisłości w pochodzeniu tego inżyniera. Skomentuj lub napraw nieścisłości (a nawet błędy).}

— hbaderts
źródło

Widziałem to wideo , po prostu obejrzyj wideo od tego momentu. skąd masz ten próbkowany numer? czy właśnie uruchomiliśmy rand () w Matlabie i uzyskaliśmy go? i wtedy byłoby inaczej dla każdego h (i). O nie! Nie sądzę, żeby maszyna nauczyła się poprawnie.

— Born2Code,

@ Born2Code to kolejne pytanie. Czy możesz to opublikować jako nowe pytanie na tej stronie? Spróbuj dodać równania, o których mówisz, do nowego pytania i wyjaśnij, których części nie rozumiesz.

— hbaderts,

link

— Born2Code,

Odpowiedź @Armen dała mi wiele wglądów. Jednak na jedno pytanie nie ma odpowiedzi.

$v$ $v$ $h$

E (v, h) = - a^{T} v - b^{T} h - v^{T} W h

$E(v,h) = -a^{\mathrm{T}} v - b^{\mathrm{T}} h -v^{\mathrm{T}} W h$

$a$ $b$ $W$

— Laurens Meeus
źródło

W jaki sposób tworzymy również ukrytą warstwę binarną? Bcoz po operacji funkcji aktywacji otrzymywalibyśmy wartości z zakresu od 0 do 1.

— Born2Code

h

$h$

v

$v$ h_bin = (rand() < h_val) ? 1 : 0

@NeilSlater: ale dlaczego liczba losowa? Ponadto, czy losowa powinna być generowana dla każdej iteracji, czy ta sama liczba powinna być używana dla wszystkich iteracji? jeszcze jedna poważna wątpliwość, ile iteracji trzeba zrobić? Mam zestaw treningowy V, który ma tylko jeden wektor, tj. V1. W wersji 1 ile razy powinienem powtarzać?

— Born2Code,

@NeilSlater: Jeszcze jedna wątpliwość dotyczy tego, czy tę samą liczbę losową należy porównać ze wszystkimi wartościami ukrytej warstwy? Wiem, że to takie idiotyczne pytanie, ale nadal

— Born2Code

Jest to liczba losowa, ponieważ w ten sposób rozkładasz prawdopodobieństwa na wartości binarne. Jest to liczba różnych dla każdego wnętrza neuronu hlub v- jesteś próbkowania wektor wartości binarnych na hlub vw celu wygenerowania przykład, że sieć „wierzy” istnieje - czyli przykład, który ma dużą szansę statystyczną jest reprezentacją zestaw treningowy. Podczas treningu określasz, jak dobrze pasuje do istniejącego przykładu treningu i odpowiednio dostosowujesz wagi.

— Neil Slater,