Dobry samouczek dotyczący ograniczonych maszyn Boltzmann (RBM)

10

Studiuję ograniczoną maszynę Boltzmanna (RBM) i mam pewne problemy ze zrozumieniem obliczeń prawdopodobieństwa dziennika w odniesieniu do parametrów RBM. Mimo że opublikowano wiele prac naukowych na temat RBM, nie ma szczegółowych kroków na temat pochodnych. Po przeszukaniu online udało mi się je znaleźć w tym dokumencie:

Fischer, A., i Igel, C. (2012). Wprowadzenie do ograniczonych maszyn Boltzmann. W L. Alvarez i in. (Red.): CIARP, LNCS 7441, s. 14–36, Springer-Verlag: Berlin-Heidelberg. ( pdf )

Jednak szczegóły tego dokumentu są dla mnie zbyt zaawansowane. Czy ktoś może skierować mnie na dobry samouczek / zestaw notatek z wykładu na temat RBM?

Edycja: @David, myląca sekcja jest pokazana poniżej (równanie 29 na stronie 26):

$\begin{aligned} \frac{\partial \ln L (θ | v)}{\partial w_{i j}} & = - \sum_{h} p (h | v) \frac{\partial E (v, h)}{\partial w_{i j}} + \sum_{v, h} p (v, h) \frac{\partial E (v, h)}{\partial w_{i j}} \\ = \sum_{h} p (h | v) h_{i} v_{j} - \sum_{v} p (v) \sum_{h} p (h | v) h_{i} v_{j} \\ (29) & = p (H_{i} = 1 | v) v_{j} - \sum_{v} p (v) p (H_{i} = 1 | v) v_{j} . \end{aligned}$ $\begin{align} \frac{\partial\ln\mathcal{L}(\theta|v)}{\partial w_{ij}} &= -\sum_h p(h|v)\frac{\partial E(v, h)}{\partial w_{ij}} + \sum_{v,h} p(v,h)\frac{\partial E(v,h)}{\partial w_{ij}} \\[5pt] &= \sum_h p(h|v)h_iv_j - \sum_v p(v) \sum_h p(h|v)h_iv_j \\[5pt] &= \color{orange}{\boxed{\color{black}{p(H_i=1|v)}}}v_j - \sum_v p(v) \color{orange}{\boxed{\color{black}{p(H_i=1|v)}}}v_j\; . \tag{29} \end{align}$

references rbm

— Upul
źródło

Czy możesz bardziej szczegółowo określić, które kroki Cię dezorientują?

— David J. Harris

1

dobrym przeczytaniem jest rozdział 5 dotyczący uczenia się głębokich architektur dla AI ( iro.umontreal.ca/~bengioy/papers/ftml_book.pdf )

— dksahuji

@dksahuji dzięki za info, także prof: Bengio pisze projekt DL i przeczuciom jest dostępny na iro.umontreal.ca/~bengioy/dlbook

— Upul

Ten samouczek zawiera objaśnienia dotyczące matematyki RBM ( samouczek dotyczący ograniczonych maszyn Boltzmanna ).

— Jiang Xiang

7

\begin{aligned} \sum_{h} p (h | v) h_{i} v_{j} & = v_{j} \sum_{h_{1}} . . . \sum_{h_{i}} . . . \sum_{h_{n}} p (h_{1}, . . ., h_{i}, . . . h_{n} | v) h_{i} \\ = v_{j} \sum_{h_{i}} \sum_{h_{_i}} p (h_{i}, h_{_i} | v) h_{i} \end{aligned}

$\begin{align} \sum_{\mathbf{h}} p(\mathbf{h} | \mathbf{v})h_iv_j &= v_j \sum_{h_1}...\sum_{h_i}...\sum_{h_n} p(h_1,...,h_i,...h_n | \mathbf{v}) h_i \\[5pt] &= v_j \sum_{h_i} \sum_{\mathbf{h_{\_ i}}}p(h_i, \mathbf{h_{\_i}} | \mathbf{v}) h_i \end{align}$ We have assumed that conditional independence between the hidden units, given the visible units, exists. Thus we can factorize the conditional joint probability distribution for the hidden states.

\begin{aligned} = v_{j} \sum_{h_{i}} \sum_{h_{_i}} p (h_{i} | v) h_{i} p (h_{_i} | v) \\ = v_{j} \sum_{h_{i}} p (h_{i} | v) h_{i} \sum_{h_{_i}} p (h_{_i} | v) \end{aligned}

$\begin{align} &= v_j \sum_{h_i} \sum_{\mathbf{h_{\_ i}}} p(h_i | \mathbf{v}) h_i \: p(\mathbf{h_{\_ i}}|\mathbf{v}) \\[5pt] &= v_j \sum_{h_i} p(h_i | \mathbf{v}) h_i \: \sum_{\mathbf{h_{\_ i}}} p(\mathbf{h_{\_ i}}|\mathbf{v}) \end{align}$ The last term equals

1

$1$ , since we are summing over all states. Thus what is left, is the first term. Since

h_{i}

$h_i$ only takes states

1

$1$ and

0

$0$ we end up with:

= v_{j} p (H_{i} = 1 | v)

$\hspace{-25mm}= v_j \: p(H_i = 1 | \mathbf{v})$

— peschn
źródło

7

There is a decent tutorial of RBMs on the deeplearning site.
This blog post (Introduction to Restricted Boltzmann Machines) is written in simpler language and explains the basics of RBMS really well:
Also, maybe the best reference is Geoff Hinton's Neural Networks course on Coursea:

I'm not sure if you can access the class and videos after the end of the class though.

— sjm.majewski
źródło

2

There are still people signing up to the Coursera class and posting in the forum. You can still see all of the lectures, and access all quizzes and programming assignments (among the quizzes). This information will probably be up until the course is offered again. I recommend enrolling in the course just to view or download the material.

— Douglas Zare

1

Lewe pomarańczowe pole przedstawia oczekiwaną wartość gradientu energii we wszystkich ukrytych konfiguracjach, biorąc pod uwagę, że jakiś widoczny wektor jest zamocowany na widocznych jednostkach (oczekiwanie na dane, ponieważ wykorzystuje próbkę z zestawu treningowego). Sam termin jest iloczynem (1) prawdopodobieństwa zobaczenia konkretnej ukrytej jednostki i, biorąc pod uwagę, że pewien wektor v jest zaciśnięty na jednostkach widocznych i (2) stan konkretnej widocznej jednostki j.

Prawe pomarańczowe pudełko jest tym samym, co lewe, z tym wyjątkiem, że robisz to, co jest w lewym pomarańczowym polu dla każdej możliwej widocznej konfiguracji zamiast tylko tej, która jest zaciśnięta na widocznych jednostkach (oczekiwanie na model, ponieważ nic nie jest zaciśnięte na widocznych jednostkach).

— Avalon
źródło

1

Rozdział 5 kursu Hugo Larochelle na temat uczenia maszynowego ( wideo ) to najlepsze wprowadzenie, jakie do tej pory znalazłem.

Pochodna funkcji straty nie jest wyprowadzana na tych wykładach, ale nie jest to trudne (w razie potrzeby mogę przesłać skan moich obliczeń, ale tak naprawdę nie jest to takie trudne). Wciąż szukam dobrego podręcznika na ten temat, ale głównie są tylko artykuły. Dobry przegląd artykułów w rozdziale 20 Bengio's Deep Learning Book.

— jakab922
źródło