Obecnie pracuję nad odtworzeniem wyników tego artykułu . W artykule opisują metodę wykorzystania CNN do ekstrakcji cech i mają model akustyczny, który jest Dnn-hmm i wstępnie przeszkolony przy użyciu RBM.
Sekcja III podsekcja A określa różne sposoby reprezentacji danych wejściowych. Zdecydowałem się na pionowe ułożenie wykresów widmowych w statycznym, delcie i delcie delta.
Artykuł opisuje, jak powinna wyglądać sieć. Twierdzą, że używają sieci splotowej, ale nic o strukturze sieci ?. Co więcej, czy sieć jest zawsze określana jako warstwa splotowa? na pewno widzę różnicę w porównaniu do zwykłej sieci neuronowej splotowej (cnn).
Artykuł stwierdza to w odniesieniu do różnicy:
(z sekcji III podsekcja B)
Warstwa splotu różni się jednak od standardowej, w pełni połączonej warstwy ukrytej pod dwoma ważnymi względami. Po pierwsze, każda jednostka splotowa odbiera dane wejściowe tylko z lokalnego obszaru danych wejściowych. Oznacza to, że każda jednostka reprezentuje niektóre cechy lokalnego regionu wejścia. Po drugie, jednostki warstwy splotowej mogą same być zorganizowane w kilka map obiektów, gdzie wszystkie jednostki w tej samej mapie obiektów mają takie same ciężary, ale otrzymują dane wejściowe z różnych lokalizacji dolnej warstwy
Kolejną rzeczą, nad którą się zastanawiałem, jest to, czy papier faktycznie określa, ile parametrów wyjściowych jest potrzebnych do zasilania modelu akustycznego dnn-hmm. Nie mogę zdekodować liczby filtrów, rozmiarów filtrów ... w ogólnych szczegółach sieci?