Próbuję wyodrębnić funkcje z pliku dźwiękowego i sklasyfikować dźwięk jako należący do określonej kategorii (np. Szczekanie psa, silnik pojazdu itp.). Chciałbym wyjaśnić następujące kwestie:
1) Czy to w ogóle wykonalne? Istnieją programy rozpoznające mowę i rozróżniające różne rodzaje szczekania psa. Ale czy można mieć program, który może odbierać próbkę dźwięku i po prostu powiedzieć, jaki to dźwięk? (Załóżmy, że istnieje baza danych zawierająca wiele próbek dźwięku, do których można się odwoływać). Próbki wejściowego dźwięku mogą być nieco zaszumione (wejście mikrofonu).
2) Zakładam, że pierwszym krokiem jest ekstrakcja funkcji audio. W tym artykule sugeruje się wyodrębnienie MFCC i przekazanie ich do algorytmu uczenia maszynowego. Czy MFCC wystarczy? Czy są jakieś inne funkcje, które są ogólnie używane do klasyfikacji dźwięku?
Dziękuję za Twój czas.