Co to jest warstwa konwergentna 1D w głębokim uczeniu się?

Dobrze rozumiem rolę i mechanizm warstw splotowych w Deep Learning do przetwarzania obrazów w przypadku implementacji 2D lub 3D - „po prostu” próbują uchwycić wzory 2D na obrazach (w przypadku 3 kanałów w przypadku 3D).

Ale ostatnio wpadłem na warstwy splotowe 1D w kontekście przetwarzania języka naturalnego, co jest dla mnie pewnego rodzaju niespodzianką, ponieważ w moim rozumieniu splot 2D jest szczególnie używany do przechwytywania wzorów 2D, których nie można ujawnić w postaci 1D (wektorowej) pikseli obrazu. Jaka jest logika splotu 1D?

deep-learning nlp convolution

— Hendrik
źródło

Krótko mówiąc, nie ma nic specjalnego w liczbie wymiarów do splotu. Można rozważyć dowolną wymiarowość splotu, jeśli pasuje do problemu.

Liczba wymiarów jest właściwością rozwiązanego problemu. Na przykład 1D dla sygnałów audio, 2D dla obrazów, 3D dla filmów. . .

Ignorując krótko liczbę wymiarów, w przypadku niektórych rodzajów danych można uznać za zalety splotowej sieci neuronowej (CNN) w porównaniu z modelami w pełni połączonymi:

Zastosowanie wspólnych wag dla każdej lokalizacji przetwarzanej przez konwolucję znacznie zmniejsza liczbę parametrów, których należy się nauczyć, w porównaniu do tych samych danych przetwarzanych przez w pełni połączoną sieć.
Wspólne wagi to forma regularyzacji.
Struktura modelu splotowego opiera się na silnych założeniach dotyczących lokalnych relacji w danych, które, jeśli są prawdziwe, dobrze pasują do problemu.

3.1 Lokalne wzorce zapewniają dobre dane predykcyjne (i / lub mogą być użytecznie łączone w bardziej złożone wzorce predykcyjne na wyższych warstwach)

3.2 Typy wzorów znalezionych w danych można znaleźć w wielu miejscach. Znalezienie tego samego wzoru w innym zestawie punktów danych jest znaczące.

Te właściwości CNN są niezależne od liczby wymiarów. Jednowymiarowe CNN działają z wzorami w jednym wymiarze i zwykle są przydatne w analizie sygnałów na sygnałach o stałej długości. Sprawdzają się na przykład w analizie sygnałów audio. Również w przypadku niektórych procesów przetwarzania języka naturalnego - chociaż rekurencyjne sieci neuronowe, które pozwalają na różne długości sekwencji, mogą być lepiej dopasowane, szczególnie te z ustawieniami bramek pamięci, takich jak LSTM lub GRU. Nadal CNN może być łatwiejszy do zarządzania i można po prostu uzupełnić dane wejściowe, aby uzyskać stałą długość.

— Neil Slater
źródło

jest 2D tylko dla obrazów w skali szarości? Co się stanie po wprowadzeniu RGB?

— Mohammad Athar

@MohammadAthar: RGB jest reprezentowane jako kanały (lub mapy obiektów ) oddzielnych informacji 2D i zwykle uważane za 2D również przy opisywaniu warstw CNN. Jeśli korzystasz z TensorFlow lub Keras, zdecydowanie użyjesz definicji warstwy Conv2D do obsługi kolorowych obrazów. Jednak wdrożenia często zawierają wewnętrzne struktury 3D i 4D do przechowywania odważników. . . a splot 2D w wielu kanałach jest faktycznie specjalnym przypadkiem splotu 3D matematycznie (gdzie wymiary wejściowe i jądra muszą pasować do ostatniej warstwy). Jest to więc konwencja nazewnictwa, podobnie jak wszystko inne.

— Neil Slater