proste rozpoznawanie mowy w systemie Linux


15

Czy ktoś ma prosty samouczek dotyczący rozpoznawania mowy w systemie Linux? Widzę, że pocketsphinx jest dostępny do pobrania binarnego w centrum oprogramowania, ale uruchomienie go z terminala nie powiedzie się, że potrzebuje parametrów, ale nie wiem, co tam umieścić. Próbowałem zainstalować wszystkie wymienione modele głosowe, ale nie wiem, gdzie zostały zapisane ani jak je uruchomić. Nie byłem też pewien, co zrobić, aby Sphinx3 działał. Strony podręcznika Sphinx3 wydają się zepsute, a kieszonkowy Sfinks nie ma dla mnie przykładowego zastosowania.

Szukam czegoś, co uzyska 60% poprawne rozpoznanie po wprowadzeniu mikrofonu z ograniczonym słownictwem i słowami, a następnie może zapisać to do pliku tekstowego - takie rzeczy istniały pod koniec lat 80. Wiem, że istnieje i powinien jakoś działać.

Dzięki.

(Połączenie internetowe PS nie jest możliwe)


Podczas ostatniej próby miałem problem z uruchomieniem simon-listens.org na Ubuntu, ale to było całkiem dawno, być może warto to zbadać
david.libremone

1
Możesz określić, czy wymaganie aktywnego połączenia internetowego jest w porządku. Usługa głosowa Google akceptuje plik audio i zwraca tekst, ale nie jest w stanie offline.
RobotHumans

Aktywny internet nie jest możliwy.
user2068060

1
Najlepszym sposobem na dodanie dodatkowych informacji do pytania jest ich edycja za pomocą przycisku edycji . Jest to lepiej widoczne w ten sposób, a komentarze są głównie do celów wtórnych, tymczasowych. Komentarze są usuwane w różnych okolicznościach. Wszystko, co ważne dla twojego pytania, powinno znajdować się w samym pytaniu.
guntbert

Odpowiedzi:


4

Spróbuj Simon Listens

Simon to program do rozpoznawania mowy typu open source, który zastępuje mysz i klawiaturę. Jego konstrukcja jest bardzo elastyczna i umożliwia dostosowanie do dowolnej aplikacji, w której potrzebne jest rozpoznawanie mowy.

Aby pobrać i uzyskać więcej informacji, odwiedź simon na kde.org



0

Stopień dokładności zależy od wielu czynników, takich jak akcent, dźwięki w tle, jakość nagrań. Wstępnie przeszkolone modele są nieco ograniczone i zamiast tego w moich projektach transkrypcyjnych użyłem narzędzia Transcribear opartego na przeglądarce mowy na tekst w Linuksie.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.