Nowoczesne przypadki użycia ograniczonych maszyn Boltzmanna (KMS)?

16

Tło: Wydaje się, że wiele współczesnych badań w ciągu ostatnich 4 lat (post Alexxnet ) zrezygnowało z generatywnego wstępnego szkolenia sieci neuronowych w celu osiągnięcia najnowszych wyników klasyfikacji.

Na przykład, najlepsze wyniki dla mnistera tutaj obejmują tylko 2 artykuły z 50 najlepszych, które wydają się używać modeli generatywnych, z których oba są RBM. Pozostałe 48 zwycięskich artykułów dotyczy różnych architektur dyskryminacyjnych, z dużym wysiłkiem włożonym w znalezienie lepszych / nowszych inicjalizacji wagi i funkcji aktywacyjnych innych niż sigmoid stosowany w RBM i wielu starszych sieciach neuronowych.

Pytanie: Czy istnieje jakiś nowoczesny powód, aby używać ograniczonych maszyn Boltzmann?

Jeśli nie, to czy istnieje de facto modyfikacja, którą można zastosować do tych architektur przekazywania, aby uczynić którąkolwiek z ich warstw generatywną?

Motywacja: pytam, ponieważ niektóre modele, które widzę dostępne, zwykle warianty RBM, niekoniecznie mają oczywiste analogiczne dyskryminujące odpowiedniki do tych generatywnych warstw / modeli i odwrotnie. Na przykład:

mcRBM
ssRBM
CRBM (chociaż można argumentować, że stosowane przez CNN architektury przekazywania danych to dyskryminująca architektura analogiczna)

Poza tym były to oczywiście również pre-Alexnet, odpowiednio z lat 2010, 2011 i 2009.

— użytkownik27886
źródło

3

Dla zabawy zbudowałem generatywną transmisję NN poprzez automatyczną regresję. power2predict.edublogs.org/2016/06/26/…

— Chris

6

Jest to trochę stare pytanie, ale ponieważ zasadniczo prosi się o „najlepsze praktyki”, a nie o to, co jest technicznie możliwe (tj. Nie wymaga zbyt dużego skupienia się na badaniach), obecne najlepsze praktyki są podobne do:

KMS zwykle nie są obecnie używane
tam, gdzie to możliwe, stosuje się modele liniowe (regresja liniowa, regresja logistyczna)
w przeciwnym razie sieci o głębokim sprzężeniu zwrotnym z warstwami, takimi jak warstwy w pełni połączone, warstwy splotowe i wprowadzanie pewnego rodzaju warstw regularyzacyjnych, takich jak rezygnacja, a ostatnio normalizacja wsadowa
oczywiście z warstwami aktywacyjnymi pomiędzy, zwykle ReLU, ale stosuje się również tanh i sigmoid
i prawdopodobnie niektóre maksymalne pule (nie zawsze: używane są również średnie pule i inne)

W przypadku zastosowań generatywnych powszechne techniki obejmują:

GAN i jego zyliony wariantów, http://www.cs.toronto.edu/~dtarlow/pos14/talks/goodfellow.pdf
auto-enkodery, ale ostatnio są one zwykle zastępowane przez:
- wariacyjne auto-enkodery, VAE, https://arxiv.org/abs/1312.6114
- generatywne CNN, wavenet: https://deepmind.com/blog/wavenet-generative-model-raw-audio/
RNN, np. Seq2seq https://arxiv.org/pdf/1409.3215v3.pdf

— Hugh Perkins
źródło

1

Niedawno znalazłem ten artykuł na temat „Przeciwdziałających maszyn zakodowanych Boltzmanna”, który integruje KMS z CNN jako model generatywny.

Autorzy pokazują, że pod pewnymi względami jest matematycznie „lepszy” i pokazują przykłady zabawek, w których BEAM wydaje się znacznie bardziej zdolny do dokładnego uczenia się rozkładu danych w porównaniu z innymi modelami GAN.

Test porównawczy CelebA w „prawdziwym świecie” był znacznie mniej imponujący - nie jest jasne, czy BEAM radzi sobie lepiej, a nawet tak dobrze, jak inne popularne sieci GAN. Jednak użycie KMS w tym otoczeniu jest z pewnością interesujące.

— shimao
źródło

czy sądzisz, że ta awaria jest przypisywana przestrzeni wyszukiwania BEAM, co pozwala na zastosowanie większego zestawu stopni swobody właściwych definicji modelu?

— Vass