Sieci splotowe (CNN) opierają się na splotach matematycznych (np. Splotach 2D lub 3D), które są powszechnie stosowane do przetwarzania sygnałów. Obrazy są rodzajem sygnału, a splot może być w równym stopniu wykorzystywany w dźwięku, wibracjach itp. Tak więc w zasadzie CNN mogą znaleźć zastosowanie do dowolnego sygnału i prawdopodobnie więcej.
W praktyce istnieją już prace nad NLP (jak wspomniał Matthew Graves), gdzie niektóre osoby przetwarzają tekst za pomocą CNN zamiast sieci rekurencyjnych. Niektóre inne prace dotyczą przetwarzania dźwięku (nie ma tu odniesienia, ale wciąż mam prace niepublikowane).
Oryginalna treść: W odpowiedzi na oryginalne pytanie tytułowe, które się zmieniło. Być może trzeba go usunąć .
Badania sieci przeciwników (i pokrewnych) pokazują, że nawet sieci głębokie można łatwo oszukać , co prowadzi ich do zobaczenia psa (lub innego obiektu) w czymś, co wydaje się przypadkowym hałasem, gdy człowiek na to patrzy (artykuł zawiera wyraźne przykłady).
Kolejną kwestią jest moc generalizacyjna sieci neuronowej. Sieci konwergencyjne zadziwiły świat swoją zdolnością do generalizowania znacznie lepiej niż inne techniki. Ale jeśli sieć będzie karmiona tylko obrazami kotów, rozpozna tylko koty (i prawdopodobnie zobaczy wszędzie koty, jak na podstawie wyników sieci przeciwników). Innymi słowy, nawet CN mają trudności z uogólnieniem zbyt daleko poza to, czego się nauczyły.
Limit rozpoznawania jest trudny do precyzyjnego zdefiniowania. Powiedziałbym po prostu, że różnorodność danych edukacyjnych przesuwa granicę (zakładam, że dalsze szczegóły powinny prowadzić do bardziej odpowiedniego miejsca do dyskusji).