W „ Konwolucyjnych sieciach głębokiego przekonania dla skalowalnego, bez nadzoru uczenia się reprezentacji hierarchicznych ” Lee i in. al. ( PDF ) Proponowane są konwergentne DBN. Oceniana jest również metoda klasyfikacji obrazów. Brzmi to logicznie, ponieważ istnieją naturalne lokalne funkcje obrazu, takie jak małe rogi i krawędzie itp.
W „ Nienadzorowanym uczeniu się funkcji klasyfikacji dźwięków przy użyciu sieci głębokich przekonań splotowych ” Lee i in. glin. ta metoda jest stosowana do audio w różnych typach klasyfikacji. Identyfikacja mówcy, identyfikacja płci, klasyfikacja telefonu, a także klasyfikacja gatunków / wykonawców.
Jak interpretować splotową część tej sieci jako audio, tak jak można to wytłumaczyć dla obrazów jako krawędzie?