Odpowiedzi:
Oprogramowanie, którego możesz użyć to CMUSphinx . W przeciwieństwie do sugerowanej w innej odpowiedzi Julius nie jest odpowiedni, ponieważ wymaga modeli. Modele rozpoznawania mowy dużego słownictwa nie są dostępne dla Juliusa.
Możesz użyć pocketsphinx do konwersji pliku audio. Te dwa polecenia muszą wykonać pracę. Najpierw przekonwertuj plik do wymaganego formatu, a następnie rozpoznasz:
ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav
Run sfinks
pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt
Wynik zostanie zapisany w pliku result.txt.
speech recognition
i voice command
narzędzi: youtube.com/…
pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.log
pracował. Może nie są to optymalne pakiety, ale były to najlepsze dopasowania, jakie mogłem znaleźć w repozytoriach.
Wiem, że jest to stare, ale aby rozwinąć odpowiedź Nikolay i mam nadzieję, że w przyszłości zaoszczędzisz komuś trochę czasu, aby uzyskać aktualną wersję działającego Pocketsphinx, musisz go skompilować z repozytorium github lub sourceforge (nie jestem pewien który jest aktualizowany). Uwaga: -j8 oznacza równoległe uruchamianie 8 oddzielnych zadań, jeśli to możliwe; jeśli masz więcej rdzeni procesora, możesz zwiększyć liczbę.
git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
Następnie z: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/
pobierz najnowsze wersje cmusphinx-en-us-....tar.gz
ien-70k-....lm.gz
tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz
Następnie możesz w końcu przejść do kroków z odpowiedzi Nikolaya:
ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
-hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
2>pocketsphinx.log >book.txt
Sfinks działa dobrze. Nie polegałbym na tym, aby stworzyć czytelną wersję tekstu, ale wystarczy, że możesz go przeszukać, jeśli szukasz konkretnego cytatu. Działa to szczególnie dobrze, jeśli używasz algorytmu wyszukiwania, takiego jak Xapian ( http://www.lesbonscomptes.com/recoll/ ), który akceptuje symbole wieloznaczne i nie wymaga dokładnych wyrażeń wyszukiwania.
Mam nadzieję że to pomoże.
pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory
-------> export LD_LIBRARY_PATH=/usr/local/lib
------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
Jeśli chcesz przekonwertować mowę na tekst, możesz otworzyć Centrum oprogramowania Ubuntu i wyszukać Juliusa
Opis
„Julius” to wysokowydajne, dwuprzebiegowe oprogramowanie dekodujące do ciągłego rozpoznawania mowy (LVCSR) dla badaczy i programistów związanych z mową.
Lub inną opcją, której nie ma w Centrum oprogramowania, jest Simon
... to program do rozpoznawania mowy typu open source, zastępujący mysz i klawiaturę.
Linki referencyjne
http://julius.sourceforge.jp/en_index.php
Możesz użyć panelu transkrypcji speechpad.pw