Tło: Wydaje się, że wiele współczesnych badań w ciągu ostatnich 4 lat (post Alexxnet ) zrezygnowało z generatywnego wstępnego szkolenia sieci neuronowych w celu osiągnięcia najnowszych wyników klasyfikacji.
Na przykład, najlepsze wyniki dla mnistera tutaj obejmują tylko 2 artykuły z 50 najlepszych, które wydają się używać modeli generatywnych, z których oba są RBM. Pozostałe 48 zwycięskich artykułów dotyczy różnych architektur dyskryminacyjnych, z dużym wysiłkiem włożonym w znalezienie lepszych / nowszych inicjalizacji wagi i funkcji aktywacyjnych innych niż sigmoid stosowany w RBM i wielu starszych sieciach neuronowych.
Pytanie: Czy istnieje jakiś nowoczesny powód, aby używać ograniczonych maszyn Boltzmann?
Jeśli nie, to czy istnieje de facto modyfikacja, którą można zastosować do tych architektur przekazywania, aby uczynić którąkolwiek z ich warstw generatywną?
Motywacja: pytam, ponieważ niektóre modele, które widzę dostępne, zwykle warianty RBM, niekoniecznie mają oczywiste analogiczne dyskryminujące odpowiedniki do tych generatywnych warstw / modeli i odwrotnie. Na przykład:
CRBM (chociaż można argumentować, że stosowane przez CNN architektury przekazywania danych to dyskryminująca architektura analogiczna)
Poza tym były to oczywiście również pre-Alexnet, odpowiednio z lat 2010, 2011 i 2009.