Szukając odpowiedzi na ten problem, znalazłem tę tablicę, więc postanowiłem opublikować moje pytanie z przepełnienia stosu.
Poszukuję metody określania podobieństwa między segmentem audio a głosem ludzkim, który jest wyrażany liczbowo.
Sporo szukałem, ale to, co do tej pory znalazłem (szczegółowo poniżej), nie pasuje do tego, czego potrzebuję:
Jedną z metod jest użycie oprogramowania do rozpoznawania mowy w celu uzyskania słów z segmentu audio. Jednak ta metoda nie jest w stanie wymyślić, jak „podobny” jest dźwięk do ludzkiej mowy; często może powiedzieć, czy w audio są słowa, ale jeśli nie ma określonych słów, nie może powiedzieć, że audio ma takie słowa.
Przykłady: CMU Sphinx , Dragonfly , SHoUTBardziej obiecująca metoda nazywana jest wykrywaniem aktywności głosowej (VAD). Ma to jednak zwykle takie same problemy: algorytmy / programy wykorzystujące VAD zwracają zwykle informację, czy próg aktywności został osiągnięty, i nie ma wartości „podobieństwa” przed lub po takim progu. Alternatywnie wielu szuka po prostu objętości, a nie podobieństwa do ludzkiej mowy.
Przykłady: Speex , Listener , FreeSWITCH
Jakieś pomysły?