Jak uzyskać wyjście mowy z wprowadzonego tekstu za pomocą wiersza polecenia?
Również możliwość zmiany szybkości mowy, wysokości głosu, głośności itp. Za pomocą prostej komendy .
Jak uzyskać wyjście mowy z wprowadzonego tekstu za pomocą wiersza polecenia?
Również możliwość zmiany szybkości mowy, wysokości głosu, głośności itp. Za pomocą prostej komendy .
Odpowiedzi:
W kolejności malejącej popularności :
say konwertuje tekst na mowę słyszalną za pomocą silnika mowy GNUstep.
sudo apt-get install gnustep-gui-runtime
say "hello"
festiwal Ogólny wielojęzyczny system syntezy mowy.
sudo apt-get install festival
echo "hello" | festival --tts
spd-say wysyła żądanie wysyłania tekstu na mowę do dyspozytora mowy
sudo apt-get install speech-dispatcher
spd-say "hello"
espeak to wielojęzyczny programowy syntezator mowy.
sudo apt-get install espeak
espeak "hello"
spd-say
wydaje się być wstępnie zainstalowany w 14.04 i późniejszych wersjach
sudo pip install gTTS
(Google Text to Speech / github.com/pndurette/gTTS ) gtts-cli "hello" -o hello.mp3
możesz również potokowaćmpg123 -
. gtts-cli "why, hello there" | mpg123 -
.
spd-say
nie wydaje się być w stanie grać w tts jednocześnie, tylko jeden raz
espeak
/ spd-say
jest najlepszy dla memów (inni nie potrafią nawet poprawnie wymówić słowa „meme”). Najlepsze, co mogę powiedzieć, spd-say
używa espeak
jako zaplecza (głosy brzmią tak samo).
espeak
to miłe małe narzędzie.
Po prostu lubię się z tym bawić w wierszu poleceń. Może się okazać, że jest on w konflikcie z Pulseaudio, więc używam od dawna rozwiniętej wersji, która nie wymaga prawidłowej konfiguracji.
sudo apt-get install espeak
espeak --stdout "this is a test" | paplay
espeak --help
pokaże opcje kalibracji prędkości czytania, wysokości dźwięku, głosu itp.
Kiedy robisz notatki, zapisz je jako plik tekstowy, a następnie:
echo "these are my notes" > text.txt
espeak --stdout -f text.txt > text.wav
paplay text.wav # you should hear "these are my notes"
Następnie możesz grać z ffmeg i innymi, aby skompresować to z PCM do czegoś łatwiejszego do zarządzania, takiego jak MP3 lub OGG. Ale to inna historia.
Od man spd-say
:
IMIĘ spd-say - wysyłanie żądania wyjścia zamiany tekstu na mowę do dyspozytora mowy STRESZCZENIE spd-say [opcje] „trochę tekstu” OPIS spd-say wysyła żądanie przetwarzania tekstu na mowę do procesu dyspozytora mowy, który go obsługuje i idealnie wyprowadza wynik do systemu audio. OPCJE -r, --rate Ustaw szybkość mowy (od -100 do +100, domyślnie: 0) -p, --pitch Ustaw wysokość mowy (od -100 do +100, domyślnie: 0) -i, --volume Ustaw głośność (intensywność) mowy (od -100 do +100, domyślnie: 0)
W związku z tym możesz uzyskać zamianę tekstu na mowę, wykonując następujące polecenie:
spd-say "<type text>"
Dawny:
spd-say "Welcome to Ubuntu Linux"
Możesz także ustawić szybkość mowy, wysokość głosu, głośność itp. Patrz strona podręcznika.
spd-say -t female2 "text"
czyni to
Mbrola nie działa od 11.10.
Narzędzia SVOX (pico) są łatwe w instalacji, łatwe w użyciu i zapewniają dobrej jakości głosy w Ubuntu. Zainstaluj to:
sudo apt-get install libttspico0 libttspico-utils libttspico-data
Jeszcze łatwiej, możesz użyć LibreOffice w połączeniu z narzędziami SVOX (pico), instalując rozszerzenie „Czytaj tekst”, a otrzymasz „GUI” dla tego doskonałego oprogramowania TTS:
Skonfigurować opcje czytać tekst przedłużenie za pomocą narzędzi - Add-ons - Wybór Przeczytaj .... Użyj / usr / bin / python jako zewnętrzny program. Wybierz opcję wiersza polecenia, która zawiera token (PICO_READ_TEXT_PY).
Mowa Python Google:
pip install google_speech
google_speech "Test the hello world"
Svox z Androida:
apt-get install svox-pico
pico2wave --wave=test.wav "Test the hello world"
play test.wav
Svox Nanotts:
git clone https://github.com/gmn/nanotts.git
cd nanotts
make
./nanotts -v en-US "Test the hello world"
Linki - Wiki:
google_speech
na ubuntu 18.04 musiałem zainstalować python3-pip
i libsox-fmt-mp3
i używać pip3 install google_speech
.
Poniższe nie jest rozwiązaniem FLOSS, ale może okazać się opłacalne. (jest to rozwiązanie do wina ),
Osobiście bardzo lubię TTS, używam go dość często ... np. słuchając wędrującego dyskursu, którego nigdy nie zawracałbym sobie głowy otherise (bo potrzebuję kolejnej filiżanki kawy ... :)
Kilka rzeczy, które odkryłem po drodze ... lub powinienem powiedzieć, rzeczy, których nie odkryłem po drodze ... Mówiąc wprost: każdy kawałek oprogramowania głosowego FOSS TTS , którego wypróbowałem, jest na równi i dlatego nieodpowiedni do jakiegokolwiek odsłuchu częściowo przedłużonego ...
Obecnie używam NaturalVoices ATnT. Jest dostępny tylko dla systemu Windows (może Mac), ale działa wine
w systemie Ubuntu .. (ma niewielką glytch, w której czasami muszę kliknąć panel, gdy odsuwam się od czytnika ... Jest niewielki problem w porównaniu z korzyścią uzyskaną dzięki jakości mowy NatualVoices.
Inne rzeczy, które uważam za niezbędne dla wrażenia odsłuchu na wpół rozsądne, to: ...
Te programy TTS nie są inteligentne (być może tak inteligentne jak młody pawian) .. dlatego potrzebują każdej pomocy, jaką mogą uzyskać. i jest jeden (i tylko jeden program Reader , który znalazłem, który bardzo pomaga w tym .. Aplikacja nazywa się ReadPlease (2003 Pro)
... To pozwoliło ci specjalnie modyfikować słowa i grupy słów, aby były wymawiane tak , jak chcesz ... To w żadnym wypadku nie jest idealny, ale dla mnie sprawił, że różnica między całym procesem jest użyteczna a nieużyteczna ...
Mowa w Natural Voices jest „dobra”, ale trochę nudna. Są też inne dobre produkty, ale wszystkie są przeznaczone dla systemu Windows, niestety) ..
Czasem zaskakuje zaskakująco dobrze ... ale OMG, początkowo jest to ból! .. więc # 2 to * cierpliwość ... i wiele aktualizacji listy "słów specjalnych" ... Przez cierpliwość mam na myśli, że faktycznie przyzwyczaiłem się do wzorców mowy mojego konkretnego pawiana:) ... i przez po drodze mam obecnie około 3000 słów, które teraz brzmią „Ludzko” na tyle, że nie kulę się już, gdy je słyszę.
3 .. „Podążaj za odbijającą się piłką” ... Ponownie, ponieważ głos nigdy nie jest tak dobry jak prawdziwy mówca, czasem trzeba wyjaśnić. Program Reader, którego używam, ma jedną cechę, dla której nawet pogodziłem się z jego masywnym interfejsem .... Ma opcję „wybierz aktualnie czytany”. Wielu czytelników ma to, ale ReadPlease utrzymuje bieżącą linię na plusie środek ekranu .. Jest to nieocenione, aby móc widzieć z przodu iz tyłu, aby szybko ponownie przeczytać to, co właśnie przegapiłeś (więc automatyczne centrowanie linii bieżącej jest dobre) ...
Cóż, to moje doświadczenie. Teraz zrobię kawę i podczas robienia tego, będę słuchać tego, aby zobaczyć, jak to „czyta” .... TTS jest zaskakująco dobry do podnoszenia literówki (robię dużo literówek) ...
Jeśli w repozytorium Ubuntu pojawi się coś tak dobrego jak ATnT NaturalVoices, skoczę na to.
Oto link do niektórych próbek naturalnych głosów : Używam „MIke”
SVOX pico2wave
tego używam. I to brzmi naturalnie, jest łatwe do zrozumienia, rozpoznaje jednostki (m, ° C, kg, ...)
Oto mój pierwszy post na pico2wave
Naturalnie brzmiący tekst na mowę?
Wszystko co musisz zrobić to:
Przejdź do Centrum oprogramowania Ubuntu i wyszukaj „pico”. Znajdziesz 4 lub 5 wpisów z „Small Footprint Ling ...”. Zainstaluj je.
Możliwe użycie pico2wave zostało opisane w moim pierwszym poście (kliknij powyższy link).
PA
Ponieważ festival
(głos wydaje mi się bardziej naturalny):
sudo apt-get install festival
echo "hello" | festival --tts
Konfiguracja wysokości i prędkości:
stworzyć ~/.festivalrc
:
(Parameter.set 'Audio_Command "play -b 16 -c 1 -e signed-integer -r $SR -t raw $FILE tempo 1.5 pitch -100")
(Parameter.set 'Audio_Method 'Audio_Command)
Zobacz także http://www.solomonson.com/content/ubuntu-linux-text-speech
Aktualizacja: wypróbowano na innym komputerze z systemem Ubuntu. Musiałem zainstalować pakiet silnika języka angielskiego, aby poprawnie współpracować z festiwalem:
sudo apt-get install festvox-kallpc16k
Również play
jest poleceniem CLI, który pochodzi z sox
pakietu:
sudo apt-get install sox
Mimo że już zaakceptowałeś odpowiedź, chciałem wspomnieć o niej festival
, którą też bardzo lubię. Ten post na forach Ubuntu zawiera wiele informacji na temat przygotowywania bardzo ładnych głosów.
Meet espeak-ng
- Wielojęzyczny programowy syntezator mowy:
espeak-ng "text to read"
espeak-ng -f "~/file to read"
Używa domyślnego głosu w języku angielskim, ale istnieje wiele innych głosów w innych językach, a nawet dialekty, które można wymienić za pomocą espeak-ng --voices
(dla wszystkich) lub np. espeak-ng --voices=en
(Dla języka angielskiego). Można je ustawić -v
razem ze skrótem językowym lub nazwą pliku, np. W języku szkockim lub suahili:
espeak-ng -v en-gb-scotland "text to read" # language name
espeak-ng -v bnt/sw "text to read" # file name: “bnt” for Bantu, “sw” for Swahili
Dostępnych jest wiele innych opcji, np -s
. Dotyczących prędkości i -w
zapisu danych wyjściowych do pliku wave, patrz strona podręcznika pod linkiem poniżej.
espeak-ng
(„Ng” dla „następnej generacji”) jest aktywnie rozwijanym rozwidleniem oryginalnego espeak
oprogramowania do syntezatora mowy , patrz rozdział Historia na Wikipedii . Oba są dostępne z oficjalnych źródeł za pośrednictwem pakietu espeak
lub espeak-ng
odpowiednio.
Balabolka pod Wine działa dobrze (dla mnie) z głosami SAPI4 (głosy SAPI5 nie są wykrywane w moim systemie Linux). Może otwierać pliki i rozpocząć czytanie.
Oto link do wpisu AppDB wina dla Balabolki: https://appdb.winehq.org/objectManager.php?sClass=application&iId=17859
Narzędzie gTTS doskonale nadaje się do generowania plików audio z tekstu. Wykorzystuje API zamiany tekstu na mowę Google Translate i generuje pliki mp3.
Biorąc pod uwagę, że używa pip
do instalacji, zdecydowanie zalecamy zainstalowanie Minicondy, a następnie użycie conda
do stworzenia środowiska, w którym można zainstalować gTTS. Możesz pobrać Miniconda stąd:
https://docs.conda.io/en/latest/miniconda.html
Repozytorium GitHub dla gTTS to:
https://github.com/pndurette/gTTS
Dokumentację gTTS można znaleźć tutaj: