W odpowiedzi na moje poprzednie pytanie zastanawiałem się, czy istnieją biblioteki do wykrywania mowy. Przez wykrywanie mowy rozumiem przekazywanie bufora audio i powrót do indeksu, od którego mowa zaczyna się i kończy. Więc jeśli mam 10 sekund próbkowania dźwięku przy 44 kHz, oczekiwałbym szeregu liczb takich jak:
44000
88000
123000
190334
...
Oznaczałoby to na przykład, że mowa zaczyna się w sekundę, a następnie kończy w drugim punkcie itd.
To, czego nie szukam, to rozpoznawanie mowy, które wypisuje tekst ze słowa mówionego. To niestety często widuję, kiedy google „wykrywa mowę”.
Byłoby wspaniale, gdyby biblioteka była w C, C ++, a nawet Objective-C, pisząc aplikację na iPhone'a.
Dzięki!