Aplikacja do rozpoznawania mowy do konwersji plików MP3 na tekst?


Odpowiedzi:


21

Oprogramowanie, którego możesz użyć to CMUSphinx . W przeciwieństwie do sugerowanej w innej odpowiedzi Julius nie jest odpowiedni, ponieważ wymaga modeli. Modele rozpoznawania mowy dużego słownictwa nie są dostępne dla Juliusa.

Możesz użyć pocketsphinx do konwersji pliku audio. Te dwa polecenia muszą wykonać pracę. Najpierw przekonwertuj plik do wymaganego formatu, a następnie rozpoznasz:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

Run sfinks

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

Wynik zostanie zapisany w pliku result.txt.


dodatkowo jako uzupełnienie tej odpowiedzi znajduje się tutaj fajne demo obu narzędzi speech recognitioni voice commandnarzędzi: youtube.com/…
Daithí

Jak dodać model akustyczny do systemu?
jarno

Wystarczy pobrać i rozpakować, nie ma czegoś takiego jak „dodaj do systemu”
Nikolay Shmyrev

@NikolayShmyrev Gdzie mam go rozpakować, aby Pocketsphinx_continuous go znalazł?
jarno

4
Cóż, zainstalowałem pakiety pocketsphinx-utils, pocketsphinx-hmm-en-hub4wsj i pocketsphinx-lm-en-hub4 w uniwersalnym repozytorium Ubuntu 14.04. Potem pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.logpracował. Może nie są to optymalne pakiety, ale były to najlepsze dopasowania, jakie mogłem znaleźć w repozytoriach.
jarno

12

Wiem, że jest to stare, ale aby rozwinąć odpowiedź Nikolay i mam nadzieję, że w przyszłości zaoszczędzisz komuś trochę czasu, aby uzyskać aktualną wersję działającego Pocketsphinx, musisz go skompilować z repozytorium github lub sourceforge (nie jestem pewien który jest aktualizowany). Uwaga: -j8 oznacza równoległe uruchamianie 8 oddzielnych zadań, jeśli to możliwe; jeśli masz więcej rdzeni procesora, możesz zwiększyć liczbę.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

Następnie z: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/ pobierz najnowsze wersje cmusphinx-en-us-....tar.gzien-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

Następnie możesz w końcu przejść do kroków z odpowiedzi Nikolaya:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Sfinks działa dobrze. Nie polegałbym na tym, aby stworzyć czytelną wersję tekstu, ale wystarczy, że możesz go przeszukać, jeśli szukasz konkretnego cytatu. Działa to szczególnie dobrze, jeśli używasz algorytmu wyszukiwania, takiego jak Xapian ( http://www.lesbonscomptes.com/recoll/ ), który akceptuje symbole wieloznaczne i nie wymaga dokładnych wyrażeń wyszukiwania.

Mam nadzieję że to pomoże.


4
wszystko działa jak urok, ale w moim przypadku musiałem uruchomić następujące polecenie, aby naprawić pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory-------> export LD_LIBRARY_PATH=/usr/local/lib------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
Vijay Dohare


11

Jeśli chcesz przekonwertować mowę na tekst, możesz otworzyć Centrum oprogramowania Ubuntu i wyszukać Juliusa

Opis

„Julius” to wysokowydajne, dwuprzebiegowe oprogramowanie dekodujące do ciągłego rozpoznawania mowy (LVCSR) dla badaczy i programistów związanych z mową.

Lub inną opcją, której nie ma w Centrum oprogramowania, jest Simon

... to program do rozpoznawania mowy typu open source, zastępujący mysz i klawiaturę.

Linki referencyjne

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.