Jak wyprowadzać syntezator mowy za pomocą wiersza polecenia?

84

Jak uzyskać wyjście mowy z wprowadzonego tekstu za pomocą wiersza polecenia?

Również możliwość zmiany szybkości mowy, wysokości głosu, głośności itp. Za pomocą prostej komendy .

command-line software-recommendation text-to-speech

— Pandya
źródło

Możliwe duplikaty Jak mogę zainstalować i używać oprogramowania syntezatora mowy?

— Organiczny uzależniony

125

W kolejności malejącej popularności :

say konwertuje tekst na mowę słyszalną za pomocą silnika mowy GNUstep.
```
sudo apt-get install gnustep-gui-runtime
say "hello"
```

festiwal Ogólny wielojęzyczny system syntezy mowy.

sudo apt-get install festival
echo "hello" | festival --tts

spd-say wysyła żądanie wysyłania tekstu na mowę do dyspozytora mowy
```
sudo apt-get install speech-dispatcher
spd-say "hello"
```
espeak to wielojęzyczny programowy syntezator mowy.
```
sudo apt-get install espeak
espeak "hello"
```

— Sylvain Pineau
źródło

13

spd-saywydaje się być wstępnie zainstalowany w 14.04 i późniejszych wersjach

— Ciro Santilli 改造改造中心法轮功六四事件

3

Ponadto sudo pip install gTTS(Google Text to Speech / github.com/pndurette/gTTS ) gtts-cli "hello" -o hello.mp3możesz również potokowaćmpg123 - . gtts-cli "why, hello there" | mpg123 -.

— Elijah Lynn,

niestety spd-saynie wydaje się być w stanie grać w tts jednocześnie, tylko jeden raz

— phil294

@ElijahLynn nie działa

— Dims

espeak/ spd-sayjest najlepszy dla memów (inni nie potrafią nawet poprawnie wymówić słowa „meme”). Najlepsze, co mogę powiedzieć, spd-sayużywa espeakjako zaplecza (głosy brzmią tak samo).

— QwertyChouskie

18

espeak to miłe małe narzędzie.

Po prostu lubię się z tym bawić w wierszu poleceń. Może się okazać, że jest on w konflikcie z Pulseaudio, więc używam od dawna rozwiniętej wersji, która nie wymaga prawidłowej konfiguracji.

sudo apt-get install espeak
espeak --stdout "this is a test" | paplay

espeak --help pokaże opcje kalibracji prędkości czytania, wysokości dźwięku, głosu itp.

Kiedy robisz notatki, zapisz je jako plik tekstowy, a następnie:

echo "these are my notes" > text.txt
espeak --stdout -f text.txt > text.wav
paplay text.wav # you should hear "these are my notes"

Następnie możesz grać z ffmeg i innymi, aby skompresować to z PCM do czegoś łatwiejszego do zarządzania, takiego jak MP3 lub OGG. Ale to inna historia.

— Oli
źródło

1

bardzo fajnie, można także wypróbować graficzny interfejs użytkownika do espeak, espeak-gui.

— Sabacon

14

Od man spd-say:

IMIĘ
       spd-say - wysyłanie żądania wyjścia zamiany tekstu na mowę do dyspozytora mowy

STRESZCZENIE
       spd-say [opcje] „trochę tekstu”

OPIS
       spd-say wysyła żądanie przetwarzania tekstu na mowę do procesu dyspozytora mowy, który go obsługuje i idealnie wyprowadza wynik
       do systemu audio.

OPCJE
       -r, --rate
              Ustaw szybkość mowy (od -100 do +100, domyślnie: 0)

       -p, --pitch
              Ustaw wysokość mowy (od -100 do +100, domyślnie: 0)

       -i, --volume
              Ustaw głośność (intensywność) mowy (od -100 do +100, domyślnie: 0)

W związku z tym możesz uzyskać zamianę tekstu na mowę, wykonując następujące polecenie:

spd-say "<type text>"

Dawny:

spd-say "Welcome to Ubuntu Linux"

Możesz także ustawić szybkość mowy, wysokość głosu, głośność itp. Patrz strona podręcznika.

— Pandya
źródło

3

spd-say -t female2 "text"czyni to

— znośnym

6

Mbrola nie działa od 11.10.

Narzędzia SVOX (pico) są łatwe w instalacji, łatwe w użyciu i zapewniają dobrej jakości głosy w Ubuntu. Zainstaluj to:

sudo apt-get install libttspico0 libttspico-utils libttspico-data

Jeszcze łatwiej, możesz użyć LibreOffice w połączeniu z narzędziami SVOX (pico), instalując rozszerzenie „Czytaj tekst”, a otrzymasz „GUI” dla tego doskonałego oprogramowania TTS:

Skonfigurować opcje czytać tekst przedłużenie za pomocą narzędzi - Add-ons - Wybór Przeczytaj .... Użyj / usr / bin / python jako zewnętrzny program. Wybierz opcję wiersza polecenia, która zawiera token (PICO_READ_TEXT_PY).

— leoperbo
źródło

4

Mowa Python Google:

pip install google_speech

google_speech "Test the hello world"

Svox z Androida:

apt-get install svox-pico

pico2wave --wave=test.wav "Test the hello world"
play test.wav

Svox Nanotts:

git clone https://github.com/gmn/nanotts.git
cd nanotts
make

./nanotts -v en-US "Test the hello world"

Linki - Wiki:

Porównanie syntezatorów mowy

— intika
źródło

1

Aby zainstalować i używać google_speechna ubuntu 18.04 musiałem zainstalować python3-pipi libsox-fmt-mp3i używać pip3 install google_speech.

— artm

3

A jeszcze inna espeak gui: gespeaker. Używa zarówno silników, jak espeaki mbrolasilników. Ma też więcej opcji niż espeak-gui.

— luri
źródło

3

Poniższe nie jest rozwiązaniem FLOSS, ale może okazać się opłacalne. (jest to rozwiązanie do wina ),

Osobiście bardzo lubię TTS, używam go dość często ... np. słuchając wędrującego dyskursu, którego nigdy nie zawracałbym sobie głowy otherise (bo potrzebuję kolejnej filiżanki kawy ... :)

Kilka rzeczy, które odkryłem po drodze ... lub powinienem powiedzieć, rzeczy, których nie odkryłem po drodze ... Mówiąc wprost: każdy kawałek oprogramowania głosowego FOSS TTS , którego wypróbowałem, jest na równi i dlatego nieodpowiedni do jakiegokolwiek odsłuchu częściowo przedłużonego ...

Obecnie używam NaturalVoices ATnT. Jest dostępny tylko dla systemu Windows (może Mac), ale działa winew systemie Ubuntu .. (ma niewielką glytch, w której czasami muszę kliknąć panel, gdy odsuwam się od czytnika ... Jest niewielki problem w porównaniu z korzyścią uzyskaną dzięki jakości mowy NatualVoices.

Inne rzeczy, które uważam za niezbędne dla wrażenia odsłuchu na wpół rozsądne, to: ...

Te programy TTS nie są inteligentne (być może tak inteligentne jak młody pawian) .. dlatego potrzebują każdej pomocy, jaką mogą uzyskać. i jest jeden (i tylko jeden program Reader , który znalazłem, który bardzo pomaga w tym .. Aplikacja nazywa się ReadPlease (2003 Pro)... To pozwoliło ci specjalnie modyfikować słowa i grupy słów, aby były wymawiane tak , jak chcesz ... To w żadnym wypadku nie jest idealny, ale dla mnie sprawił, że różnica między całym procesem jest użyteczna a nieużyteczna ...
Mowa w Natural Voices jest „dobra”, ale trochę nudna. Są też inne dobre produkty, ale wszystkie są przeznaczone dla systemu Windows, niestety) ..
Czasem zaskakuje zaskakująco dobrze ... ale OMG, początkowo jest to ból! .. więc # 2 to * cierpliwość ... i wiele aktualizacji listy "słów specjalnych" ... Przez cierpliwość mam na myśli, że faktycznie przyzwyczaiłem się do wzorców mowy mojego konkretnego pawiana:) ... i przez po drodze mam obecnie około 3000 słów, które teraz brzmią „Ludzko” na tyle, że nie kulę się już, gdy je słyszę.

3 .. „Podążaj za odbijającą się piłką” ... Ponownie, ponieważ głos nigdy nie jest tak dobry jak prawdziwy mówca, czasem trzeba wyjaśnić. Program Reader, którego używam, ma jedną cechę, dla której nawet pogodziłem się z jego masywnym interfejsem .... Ma opcję „wybierz aktualnie czytany”. Wielu czytelników ma to, ale ReadPlease utrzymuje bieżącą linię na plusie środek ekranu .. Jest to nieocenione, aby móc widzieć z przodu iz tyłu, aby szybko ponownie przeczytać to, co właśnie przegapiłeś (więc automatyczne centrowanie linii bieżącej jest dobre) ...

Cóż, to moje doświadczenie. Teraz zrobię kawę i podczas robienia tego, będę słuchać tego, aby zobaczyć, jak to „czyta” .... TTS jest zaskakująco dobry do podnoszenia literówki (robię dużo literówek) ...

Jeśli w repozytorium Ubuntu pojawi się coś tak dobrego jak ATnT NaturalVoices, skoczę na to.

Oto link do niektórych próbek naturalnych głosów : Używam „MIke”

— Peter.O
źródło

3

SVOX pico2wave

tego używam. I to brzmi naturalnie, jest łatwe do zrozumienia, rozpoznaje jednostki (m, ° C, kg, ...)

Oto mój pierwszy post na pico2wave

Naturalnie brzmiący tekst na mowę?

Wszystko co musisz zrobić to:

Przejdź do Centrum oprogramowania Ubuntu i wyszukaj „pico”. Znajdziesz 4 lub 5 wpisów z „Small Footprint Ling ...”. Zainstaluj je.

Możliwe użycie pico2wave zostało opisane w moim pierwszym poście (kliknij powyższy link).

PA

— użytkownik85321
źródło

użyłem twojej drogi, czy możesz mi powiedzieć, jak uzyskać naturalnie słodki kobiecy głos na swój sposób

— user49557

3

Ponieważ festival(głos wydaje mi się bardziej naturalny):

sudo apt-get install festival

echo "hello" | festival --tts

Konfiguracja wysokości i prędkości:

stworzyć ~/.festivalrc:

(Parameter.set 'Audio_Command "play -b 16 -c 1 -e signed-integer -r $SR -t raw $FILE tempo 1.5 pitch -100") (Parameter.set 'Audio_Method 'Audio_Command)

Zobacz także http://www.solomonson.com/content/ubuntu-linux-text-speech

Aktualizacja: wypróbowano na innym komputerze z systemem Ubuntu. Musiałem zainstalować pakiet silnika języka angielskiego, aby poprawnie współpracować z festiwalem:

sudo apt-get install festvox-kallpc16k

Również playjest poleceniem CLI, który pochodzi z soxpakietu:

sudo apt-get install sox

— d9k
źródło

2

Mimo że już zaakceptowałeś odpowiedź, chciałem wspomnieć o niej festival, którą też bardzo lubię. Ten post na forach Ubuntu zawiera wiele informacji na temat przygotowywania bardzo ładnych głosów.

— frabjous
źródło

2

Meet espeak-ng- Wielojęzyczny programowy syntezator mowy:

espeak-ng "text to read"
espeak-ng -f "~/file to read"

Używa domyślnego głosu w języku angielskim, ale istnieje wiele innych głosów w innych językach, a nawet dialekty, które można wymienić za pomocą espeak-ng --voices(dla wszystkich) lub np. espeak-ng --voices=en(Dla języka angielskiego). Można je ustawić -vrazem ze skrótem językowym lub nazwą pliku, np. W języku szkockim lub suahili:

espeak-ng -v en-gb-scotland "text to read" # language name
espeak-ng -v bnt/sw "text to read" # file name: “bnt” for Bantu, “sw” for Swahili

Dostępnych jest wiele innych opcji, np -s. Dotyczących prędkości i -wzapisu danych wyjściowych do pliku wave, patrz strona podręcznika pod linkiem poniżej.

Dalsza lektura

espeak-ng(„Ng” dla „następnej generacji”) jest aktywnie rozwijanym rozwidleniem oryginalnego espeakoprogramowania do syntezatora mowy , patrz rozdział Historia na Wikipedii . Oba są dostępne z oficjalnych źródeł za pośrednictwem pakietu espeaklub espeak-ngodpowiednio.

— deser
źródło

0

Balabolka pod Wine działa dobrze (dla mnie) z głosami SAPI4 (głosy SAPI5 nie są wykrywane w moim systemie Linux). Może otwierać pliki i rozpocząć czytanie.

Oto link do wpisu AppDB wina dla Balabolki: https://appdb.winehq.org/objectManager.php?sClass=application&iId=17859

— Hemantkumar Garach
źródło

0

Narzędzie gTTS doskonale nadaje się do generowania plików audio z tekstu. Wykorzystuje API zamiany tekstu na mowę Google Translate i generuje pliki mp3.
Biorąc pod uwagę, że używa pipdo instalacji, zdecydowanie zalecamy zainstalowanie Minicondy, a następnie użycie condado stworzenia środowiska, w którym można zainstalować gTTS. Możesz pobrać Miniconda stąd:

https://docs.conda.io/en/latest/miniconda.html

Repozytorium GitHub dla gTTS to:

https://github.com/pndurette/gTTS

Dokumentację gTTS można znaleźć tutaj:

https://gtts.readthedocs.io/en/latest/

— evaristegd
źródło