Zastanawiałem się nad możliwością klasyfikacji dźwięku (na przykład dźwięków zwierząt) za pomocą spektrogramów. Chodzi o to, aby użyć głębokich splotowych sieci neuronowych do rozpoznania segmentów w spektrogramie i uzyskania jednej (lub wielu) etykiet klasy. To nie jest nowy pomysł (patrz na przykład klasyfikacja dźwięku wieloryba lub rozpoznawanie stylu muzyki ).
Problem, przed którym stoję, polega na tym, że mam pliki dźwiękowe o różnej długości, a zatem spektrogramy o różnych rozmiarach. Jak dotąd każde podejście, które widziałem, wykorzystuje próbkę dźwięku o stałym rozmiarze, ale nie mogę tego zrobić, ponieważ mój plik dźwiękowy może mieć 10 sekund lub 2 minuty długości.
Na przykład z dźwiękiem ptaka na początku i dźwiękiem żaby na końcu (wyjście powinno brzmieć „Bird, Frog”). Moje obecne rozwiązanie polegałoby na dodaniu komponentu czasowego do sieci neuronowej (tworząc bardziej rekurencyjną sieć neuronową), ale na razie chciałbym zachować prostotę. Wszelkie pomysły, linki, samouczki, ...?