Czy istnieje jakieś przyzwoite oprogramowanie do rozpoznawania mowy dla systemu Linux?

49

Krótka wersja pytania: szukam oprogramowania do rozpoznawania mowy działającego w systemie Linux, mającego przyzwoitą dokładność i użyteczność. Każda licencja i cena jest w porządku. Nie powinno się ograniczać do poleceń głosowych, ponieważ chcę móc dyktować tekst.

Więcej szczegółów:

Niezadowalająco próbowałem:

CMU Sphinx
CVoiceControl
Uszy
Juliusz
Kaldi (np. Serwer Kaldi GStreamer )
IBM ViaVoice (kiedyś działał w systemie Linux, ale został wycofany wiele lat temu)
Zestaw narzędzi NICO ANN
OpenMindSpeech
RWTH ASR
krzyczeć
silvius (zbudowany na zestawie narzędzi do rozpoznawania mowy Kaldi)
Simon Listens
ViaVoice / Xvoice
Wine + Dragon NaturallySpeaking + NatLink + dragonfly + damselfly
https://github.com/DragonComputer/Dragonfire : akceptuje tylko polecenia głosowe

Wszystkie wyżej wymienione natywne rozwiązania dla Linuksa mają zarówno słabą dokładność, jak i użyteczność (lub niektóre nie pozwalają na dyktowanie dowolnego tekstu, a jedynie polecenia głosowe). Przez niską dokładność rozumiem dokładność znacznie poniżej tej, którą oprogramowanie do rozpoznawania mowy, o której wspomniałem poniżej, ma dla innych platform. Jeśli chodzi o Wine + Dragon NaturallySpeaking, z mojego doświadczenia ciągle się zawiesza i nie wydaje mi się, że tylko ja mam takie problemy.

W systemie Microsoft Windows używam Dragon NaturallySpeaking, w Apple Mac OS XI korzystam z Apple Dictation i DragonDictate, na Androida używam rozpoznawania mowy Google, a na iOS używam wbudowanego rozpoznawania mowy Apple.

Baidu Badania wydany wczoraj ten kod do swojej biblioteki rozpoznawania mowy przy użyciu koneksjonistyczne Temporal Classification realizowany z palnika. Testy porównawcze z Gigaom są zachęcające, jak pokazano na zrzucie ekranu poniżej, ale nie jestem świadomy żadnego dobrego opakowania, które umożliwiłoby korzystanie z niego bez dość kodowania (i dużego zestawu danych treningowych):

Istnieje kilka bardzo otwartych projektów alfa:

https://github.com/mozilla/DeepSpeech (część projektu Vaani Mozilli: http://vaani.io ( mirror ))
https://github.com/pannous/tensorflow-speech-recognition
Vox, system do sterowania systemem Linux za pomocą Dragon NaturallySpeaking: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
https://github.com/facebookresearch/wav2letter
https://github.com/espnet/espnet
http://github.com/tensorflow/lingvo (do wydania przez Google, wspomniane na Interspeech 2018)

Jestem również świadomy tej próby śledzenia stanów sztuki i najnowszych wyników (bibliografii) dotyczących rozpoznawania mowy. a także ten test porównawczy istniejących interfejsów API rozpoznawania mowy .

Znam Aeneę , która umożliwia rozpoznawanie mowy za pośrednictwem Dragonfly na jednym komputerze w celu wysyłania zdarzeń do innego, ale wiąże się to z pewnym opóźnieniem:

Zdaję sobie również sprawę z tych dwóch rozmów eksplorujących opcję Linux do rozpoznawania mowy:

2016 - The Eleventh HOPE: Coding by Voice with Open Source Speech Recognition (David Williams-King)
2014 - Pycon: Używanie Pythona do kodowania za pomocą głosu (Tavis Rudd)

software-rec speech-recognition

— Franck Dernoncourt
źródło

2

Niektóre szczegóły na temat tego, co uważasz za „niezadowalające”, mogą posunąć naprzód twój skądinąd interesujący, ale raczej ogólny temat publikowania. Na przykład: co konkretnie uważasz za niezadowalające w kombinacji „Wine + Dragon NaturallySpeaking”? (w jaki sposób nie udało się zreplikować systemu Windows?)

— Theophrastus

1

@Theophrastus Zasadniczo wszystkie rodzime rozwiązania Linux mają zarówno słabą dokładność, jak i użyteczność. Przez niską dokładność rozumiem dokładność znacznie poniżej tej, którą wspomniałem oprogramowanie do rozpoznawania mowy dla innych platform. Jeśli chodzi o Wine + Dragon NaturallySpeaking, z mojego doświadczenia wynika, że ciągle się zawiesza i nie wydaje mi się, że jako jedyny mam takie problemy ( appdb.winehq.org/... )

— Franck Dernoncourt

1

Nie próbowałem tego, ale na wypadek, gdyby ktoś uznał to za przydatne: github.com/Uberi/speech_recognition i jasperproject.github.io i github.com/benoitfragit/google2ubuntu

— Hatszepsut

Czy jest takie oprogramowanie, które ma narzędzie wiersza polecenia? Byłoby bardzo interesujące połączenie rozpoznawania mowy z narzędziem do naciskania klawiszy i myszy, takim jak xdotool ( github.com/jordansissel/xdotool ) lub xsendkey ( github.com/kyoto/sendkeys ).

— baptx

13

Obecnie eksperymentuję z użyciem połączenia KDE w połączeniu z rozpoznawaniem mowy Google na moim smartfonie z Androidem.

KDE Connect umożliwia korzystanie z urządzenia z Androidem jako urządzenia wejściowego dla komputera z systemem Linux (istnieją również inne funkcje). Musisz zainstalować aplikację KDE Connect ze sklepu Google Play na swoim smartfonie / tablecie i zainstalować zarówno kdeconnect, jak i wskaźnik-kdeconnect na komputerze z systemem Linux. W przypadku systemów Ubuntu instalacja przebiega następująco:

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

Minusem tej instalacji jest to, że instaluje kilka pakietów KDE, których nie potrzebujesz, jeśli nie korzystasz ze środowiska graficznego KDE.

Po sparowaniu urządzenia z systemem Android z komputerem (muszą znajdować się w tej samej sieci) możesz użyć klawiatury Androida, a następnie kliknąć / nacisnąć mikrofon, aby użyć rozpoznawania mowy Google. Podczas rozmowy tekst zacznie się pojawiać tam, gdzie kursor jest aktywny na komputerze z systemem Linux.

Jeśli chodzi o wyniki, są one dla mnie trochę mieszane, ponieważ obecnie piszę jakiś dokument dotyczący astrofizyki technicznej, a rozpoznawanie mowy Google walczy z żargonem, którego zwykle nie czytasz. Zapomnij również o tym, zastanawiając się nad interpunkcją lub poprawnym pisaniem wielkimi literami.

— Shockburner
źródło

4

Na razie tylko notatnik głosowy działa w systemie Linux.

— Aleksiej
źródło

2

Dzięki, działa tylko w przeglądarce Chrome.

— Franck Dernoncourt

3

Gdy jeszcze jeden Linuxer szukał przydatnego programu konwersji tekstu na mowę (dyktowanie), zajrzałem do speechpad.pw:

bardzo dobrze rozpoznaje mój język ojczysty
działa szybko i bardzo niezawodnie

Wady:

oczywiście jest to zastrzeżone i zamknięte oprogramowanie od Google
usługa Google będzie nasłuchiwać, przetwarzać i rzekomo przechowywać każde wypowiedziane słowo
dźwięk i tekst będą przetwarzane i oczywiście przechowywane przez Google
speechpad.pw wymaga miesięcznej / kwartalnej / rocznej opłaty abonamentowej
speechpad.pw działa tylko jako dodatek do przeglądarki Google Chrome - żadna inna przeglądarka

Tak więc speechpad.pw jest bardzo zastrzeżonym i zamkniętym źródłem, a także powiązanym z Google, który wszyscy znamy jako nieprzespane metadane, dane osobowe i kolekcjoner treści osobistych.

Te wady sprawiają, że jest to dla mnie aplikacja nie do przejścia, chociaż samo rozpoznawanie mowy działa bardzo dobrze - znacznie lepiej niż wszystko, co do tej pory widziałem.

— też
źródło

Dzięki, tak, znaczące wady, tym bardziej, że działa tylko w przeglądarce Chrome.

— Franck Dernoncourt

1

Możesz używać Dokumentów Google w Chrome i korzystać z ich opcji „Narzędzia” »„ Pisanie głosów ... ”. Prawdopodobnie dokładnie to samo oprogramowanie do rozpoznawania mowy, ale jest bezpłatne. Następnie skopiuj wklej wyniki z twojego dokumentu tam, gdzie potrzebujesz tekstu.

— Alexis Wilke,

2

Aplikacja Chrome „VoiceNote II” ( http://voicenote.in/ ) działa świetnie na moim komputerze Xubuntu 16.04. Nie jest wymagane szkolenie głosowe, a konfiguracja była prosta. Jedno wyszukiwanie, aby je znaleźć, jedno kliknięcie, aby zainstalować, jedno kliknięcie, aby utworzyć skrót i połączyć go z pulpitem.

— Poprawka Indy Tech
źródło

Dzięki, działa tylko w Google Chrome

— Franck Dernoncourt

0

Sugeruję użycie smoka na telefonie lub tablecie, a następnie wysłanie wiadomości e-mail do siebie. To opór, ale działa i jest bardzo dokładny. Jeśli nalegasz na użycie Linuksa do tego, uzyskanie drugiego wyświetlacza znacznie ułatwi kopiowanie i przechodzenie do przeszłości.

Nie próbowałem tego, ale możesz być w stanie użyć lub dostosować program do rozmowy Bluetooth w Pythonie ze smokiem na tablecie / telefonie. Mogą też istnieć aplikacje zdalnej klawiatury dla urządzeń mobilnych, które mogą obsługiwać wprowadzanie dyktanda.

Eksperymentuję i postaram się odpowiedzieć z czymś bardziej ostatecznym.

— użytkownik273470
źródło

0

Korzystam z aplikacji KD Connect. działa całkiem skutecznie! Jestem w stanie nie odrywać wzroku od monitora podczas rozmowy z telefonem na biurku. Jedynym minusem jest to, że odbywa się to za pomocą klawiatury Google. nie jest ani darmowy, natywny ani otwarty. ten komentarz został opublikowany bez dokonywania jakichkolwiek poprawek

— Josh Levine
źródło

-2

Możesz używać mowy na tekst w aplikacji Linux Ta aplikacja korzysta z Google Speech Api i binarnego modułu integracji dla systemu Linux 32 lub 64-bitowego. Możesz zobaczyć krótką prezentację użycia narzędzi speechpad.pw w Ubuntu

— Pavel Popov
źródło

1

OP szuka silnika syntezatora mowy. To tylko opakowanie interfejsu użytkownika (i to kiepskie) wokół silnika STT.

— Cerin,