Czy modele graficzne i maszyny Boltzmanna są powiązane matematycznie?


10

Podczas gdy faktycznie programowałem na maszynach Boltzmanna na zajęciach z fizyki, nie znam ich teoretycznej charakterystyki. W przeciwieństwie do tego znam skromną wiedzę na temat teorii modeli graficznych (o kilku pierwszych rozdziałach książki Lauritzen Modele graficzne ).

Pytanie: Czy istnieje jakiś znaczący związek między modelami graficznymi a maszyną Boltzmanna? Czy maszyna Boltzmanna jest rodzajem modelu graficznego?

Oczywiście maszyna Boltzmanna jest rodzajem sieci neuronowej. Słyszałem, że niektóre sieci neuronowe są matematycznie powiązane z modelami graficznymi, a niektóre nie.

Powiązane pytania dotyczące CrossValidated, które nie odpowiadają na moje pytanie:
Jest to podobne do poprzedniego pytania, które zostało zadane wcześniej: Jaki jest związek między modelami hierarchicznymi, sieciami neuronowymi, modelami graficznymi, sieciami bayesowskimi? ale jest bardziej szczegółowy.

Co więcej, zaakceptowana odpowiedź na to pytanie nie wyjaśnia mojego zamieszania - nawet jeśli węzły w standardowej graficznej reprezentacji sieci neuronowej nie reprezentują zmiennych losowych, to niekoniecznie oznacza, że ​​taka reprezentacja nie istnieje. Konkretnie mam na myśli o tym, jak węzły w typowej graficznej reprezentacji łańcuchów Markowa reprezentuje zbiór możliwych stanów zamiast zmienne losowe , ale można też utworzyć wykres przedstawiający warunkowe relacje zależności między X IXjaXja, co pokazuje, że każdy łańcuch Markowa jest w rzeczywistości losowym polem Markowa. Odpowiedź mówi również, że sieci neuronowe (przypuszczalnie obejmujące maszyny Boltzmanna) są „dyskryminujące”, ale nie wnikają bardziej szczegółowo w wyjaśnienie, co oznacza to twierdzenie, ani też oczywiste pytanie uzupełniające „czy modele graficzne nie są dyskryminujące?” zaadresowany. Podobnie, zaakceptowana odpowiedź prowadzi do strony Kevina Murphy'ego (faktycznie czytam niektóre z jego rozpraw doktorskich, kiedy dowiaduję się o sieci bayesowskie), ale ta strona internetowa omawia tylko sieci bayesowskie i wcale nie wspomina o sieciach neuronowych - dlatego też nie wyjaśnia, w jaki sposób są różne.

To drugie pytanie jest prawdopodobnie najbardziej podobne do mojego: Modelowanie matematyczne sieci neuronowych jako modeli graficznych Jednak żadna z odpowiedzi nie została zaakceptowana i podobnie podaje tylko referencje, ale nie wyjaśniają referencji (np. Ta odpowiedź ). Mam nadzieję, że pewnego dnia będę w stanie zrozumieć odniesienia, ale teraz jestem na podstawowym poziomie wiedzy i najbardziej doceniłbym odpowiedź, która jest tak uproszczona, jak to możliwe. Również kurs w Toronto, do którego link znajduje się w górnej odpowiedzi ( http://www.cs.toronto.edu/~tijmen/csc321/lecture_notes.shtml ), rozwiązuje ten problem, ale nie jest zbyt szczegółowy. Ponadto notatki do jednego wykładu, które mogłyby odpowiedzieć na moje pytanie, nie są publicznie dostępne.

25 marca Wykład 13b: Sieci wierzeń 7:43. Na tym slajdzie pamiętaj o maszynach Boltzmann. Tam też mamy ukryte jednostki i widoczne jednostki, i to wszystko jest probabilistyczne. BM i SBN mają więcej wspólnego niż różnice. 9:16. W dzisiejszych czasach „modele graficzne” są czasem uważane za specjalną kategorię sieci neuronowych, ale w opisanej tutaj historii były one uważane za bardzo różne typy systemów.

Odpowiedzi:


7

Maszyny Boltzmanna vs. ograniczone maszyny Boltzmanna

AFAIK maszyny Boltzmanna to rodzaj modelu graficznego, a modelem powiązanym z sieciami neuronowymi są ograniczone maszyny Boltzmanna (RBM).

Różnica między maszynami Boltzmanna a ograniczonymi maszynami Boltzmanna, z książki Machine Learning A Probabilistic Perspective wprowadź opis zdjęcia tutaj

RBM vs. sieci neuronowe

p(v,h)=1Zexp(zajavja+bjothjot+vjahjotwjajot)
p(hjot=1|v)=σ(bjot+vjawjajot)
p(vja=1|h)=σ(zaja+hjotwjajot)
vhσ()

Prawdopodobieństwa warunkowe są obliczane w tej samej formie warstw sieci, więc wyuczone wagi RBM mogą być wykorzystane bezpośrednio jako wagi sieci neuronowych lub jako punkt początkowy treningu.

Myślę, że sam RBM jest bardziej modelem graficznym niż rodzajem sieci neuronowej, ponieważ jest niekierowany, ma dobrze zdefiniowane niezależności warunkowe i wykorzystuje własne algorytmy szkoleniowe (np. Dywergencję kontrastową).


2
Fajnie, to naprawdę świetna odpowiedź z doskonałym odniesieniem. Sprawia, że ​​jeszcze szybciej chcę czytać książkę profesora Murphy'ego. Doceniam czas poświęcony na udzielenie tej dokładnej odpowiedzi.
Chill2Macht

2
@William cieszę się, że mogłem pomóc :)
dontloo

2
v=h=σ()=

2
@ GeoMatt22 dziękuję, zaktualizowałem odpowiedź.
dontloo

3

To tylko potwierdza / weryfikuje przyjętą odpowiedź, że maszyny Boltzmanna są rzeczywiście szczególnym przypadkiem modelu graficznego. W szczególności pytanie to jest adresowane na s. 127–127 Kollera, Friedmana, Probabilistyczne modele graficzne: zasady i techniki , w ramce 4.C.

Jednym z najwcześniejszych typów modeli sieci Markowa jest model Isinga, który po raz pierwszy powstał w fizyce statystycznej jako model energii układu fizycznego obejmującego układ oddziaływujących atomów ... Z modelem Isinga związany jest rozkład maszyny Boltzmanna. uzyskaną energię można przeformułować w oparciu o model Isinga (ćwiczenie 4.12).

Jak model Isinga, pierwotnie koncepcja z literatury mechaniki statystycznej, może zostać sformułowany jako model graficzny, jest szczegółowo opisany w przykładzie 3.1., Sekcja 3.3., Na str. 41-43 Wainwright, Jordan, Modele graficzne, wykładniczy Rodziny i wnioskowanie wariacyjne .

Najwyraźniej model Isinga odegrał kluczową rolę w tworzeniu modeli graficznych pod koniec lat siedemdziesiątych i na początku lat osiemdziesiątych, przynajmniej w oparciu o to, co mówi Steffen Lauritzen zarówno we wstępie, jak i we wstępie do swojej książki, modele graficzne . Ta interpretacja wydaje się również poparta przez punkt 4.8 wyżej cytowanej książki Koller i Friedman.

Rozwój maszyn Boltzmanna z modelu Isinga mógł być niezależnym wydarzeniem, opartym również na tej samej sekcji Kollera i Friedmana, który twierdzi, że „Maszyny Boltzmanna zostały po raz pierwszy zaproponowane przez Hintona i Sejnowskiego (1983)”, co wydaje się mieć nastąpiło po początkowej pracy nad opracowaniem losowych pól Markowa jako uogólnienia modelu Isinga, chociaż prace nad tym opracowaniem mogły rozpocząć się znacznie wcześniej niż w 1983 r.


Moje zamieszanie związane z tą relacją, gdy pisałem to pytanie ponad rok temu, wynikało z faktu, że w literaturze fizyki po raz pierwszy spotkałem zarówno model Isinga, jak i model maszyny Boltzmanna dla neuronów. Jak wspominają Koller i Friedman, literatura w społeczności fizyki statystycznej na temat modelu Isinga i powiązanych pojęć jest naprawdę ogromna.

Z mojego doświadczenia wynika, że ​​jest on dość wyspiarski, w tym sensie, że chociaż statystycy i informatycy badający modele graficzne wspominają, w jaki sposób pole jest powiązane z mechaniką statystyczną, żadne odniesienie, którego nigdy nie znalazłem w literaturze fizyki statystycznej, nie wspomina o powiązaniach z innymi dziedzinami lub próbuje to wykorzystać. (Stąd wzbudzanie we mnie wątpliwości i dezorientacja na myśl, że mogą istnieć jakiekolwiek powiązania z innymi dziedzinami).

Przykład perspektywy fizyka na model Isinga i maszynę Boltzmanna można znaleźć w podręczniku z kursu, w którym po raz pierwszy się o nim dowiedziałem. Wspomina także o średnich metodach polowych, o ile dobrze pamiętam, o czym również dyskutowałem w cytowanym powyżej artykule Jordan i Wainwright.


2
połączenie może być bardzo cienkie i opiera się głównie na zastosowaniu funkcji podziału, która leży u podstaw mechaniki statystycznej i że wykładnicza jest suma iloczynów wewnętrznych. Funkcja softmax również używa tej formy, więc nomenklatura zachowuje dziedzictwo terminów, a wielu fizyków pracuje (red.) W ML (np. Christopher Bishop).
Vass
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.