Naturalnie brzmiący tekst na mowę?


85

Szukam prostego w instalacji oprogramowania do konwersji tekstu na mowę dla systemu Ubuntu, które brzmi naturalnie. Mam zainstalowane Festival, Gespeakeritd, ale nic nie brzmi bardzo naturalnie. Wszystko bardzo syntetyczne i trudne do zrozumienia.

Jakieś rekomendacje?


Odpowiedzi:


51

SVOX pico2wave

Bardzo minimalistyczny TTS, lepiej brzmiący niż espeak lub mbrola (moim zdaniem). Kilka informacji tutaj .

Nie rozumiem, dlaczego pico2wave jest rzadko omawiane w porównaniu do espeak lub mbrola. Jest mały, ale brzmi naprawdę dobrze (naturalnie). Bez modyfikacji usłyszysz naturalnie brzmiący żeński głos.

ORAZ ... w porównaniu do Mbroli rozpoznaje Jednostki i mówi to we właściwy sposób!
Na przykład:

  • 2 ° C → dwa stopnie
  • 2m → dwa metry
  • 2 kg → dwa kilogramy

Po instalacji używam go w skrypcie:

#!/bin/bash
pico2wave -w=/tmp/test.wav "$1"
aplay /tmp/test.wav
rm /tmp/test.wav

Następnie uruchom go z żądanym tekstem:

<scriptname>.sh "hello world"

lub przeczytaj zawartość całego pliku:

<scriptname>.sh "$(cat <filename>)"

To wszystko, aby mieć lekki, stabilny działający TTS na Ubuntu.


1
O ile widzę, używa tylko parametrów cli jako danych wejściowych. Czy jest jakiś sposób, aby pico2wave odczytał tekst z nazwy pliku?
Carlos Eugenio Thompson Pinzón

13
pico2wavejest w pakiecie libttspico-utilsw najnowszych wersjach ubuntu. @ CarlosEugenioThompsonPinzóncat <filename> | xargs -I foo -0 pico2wave -w blah.wav foo
naught101

1
@ CarlosEugenioThompsonPinzón pico2wave -w a.wav "$(input.txt)"=). Zgadzam się, że ten interfejs CLI ma zły projekt: w przeciwieństwie do ogromnej większości interfejsów CLI i możliwe jest osiągnięcie maksymalnej długości argumentu CLI dla systemu operacyjnego .
Ciro Santilli 13 改造 中心 法轮功 六四 事件

1
@Koen Nie wiem! :-) Jak każdy inny problem, spróbuj stworzyć minimalny przykład, np. Używającecho {1..1000}
Ciro Santilli 22 改造 中心 法轮功 六四 事件

1
@ user49557 Nie powinniśmy przejmować pytań innych, więc może możesz utworzyć nowe pytanie, wyjaśniając, co dokładnie zainstalowałeś i co poszło nie tak, a potem zawsze będę mógł ci pomóc (ale nie ma gwarancji , Nie jestem ekspertem: P)
Koen

22

Powiedz to!

Wierzę, że znalazłem najlepsze oprogramowanie TTS za darmo, używając rozszerzenia Google Chrome o nazwie „SpeakIt”. Działa to tylko w przeglądarce Chrome dla Ubuntu. Z jakiegoś powodu nie działa z Chromium. SpeakIt ma dwa kobiece głosy, które brzmią bardzo realistycznie w porównaniu do wszystkiego innego. Są jeszcze co najmniej cztery głosy płci męskiej i żeńskiej na liście rozszerzeń Chrome, jeśli przeszukujesz Chrome Web Store za pomocą „TTS” jako zapytania.

Zastosowanie : Do użytku na stronie internetowej. zaznacz tekst, który chcesz przeczytać, albo kliknij prawym przyciskiem myszy i „SpeakIt”, albo kliknij ikonę SpeakIt zadokowaną na górnym pasku Chrome.


Użytkownicy przeglądarki Firefox mają również dwie opcje. W dodatkach Firefoksa wyszukaj TTS, a powinieneś znaleźć „Click Speak”, a także „Text to Voice”. Głosy nie są tak dobre jak głosy Chrome SpeakIt, ale są zdecydowanie użyteczne.

Rozszerzenie SpeakIt wykorzystuje technologię iSpeech, a za cenę 20 USD rocznie witryna może konwertować tekst na pliki audio MP3. Możesz wprowadzać tekst, adresy URL, kanały RSS, a także dokumenty takie jak TXT, DOC i PDF oraz zapisywać je w formacie MP3. Możesz tworzyć podcasty, osadzać audio itp. Oto link i próbka ich dźwięku (nie wiem, jak długo link będzie trwał).


3
Niestety żadna z opcji przeglądarki nie działa w przypadku plików PDF. Czy natrafiłeś na taki, który to robi? Chciałbym móc wybrać akapity do odczytania z pliku PDF (tj. Nie trzeba wklejać bitów do terminala lub innego)
James Owers

1
to rozszerzenie działa dla mnie na chromie 50.0.2661.94 przy użyciu Debiana 8.4 i jest świetne! szczególnie podoba mi się angielski kobiecy głos. moją jedyną skargą jest to, że zbyt długo zatrzymuje się na przecinkach.
mulllhausen

Często źle wymawia słowa, a także wysyła tekst na osobny serwer, a nie tylko używa własnego systemu.
Goddard,

14

Pico i espeak są fajne i łatwe do pracy, ale nie są aż tak dobre. Domyślne głosy festiwalowe również nie są tak dobre. Festival to jednak schemat mowy oparty na schemacie, w którym wielu badaczy opracowało znacznie lepsze głosy wtyczek. Możesz łatwo przewyższyć jakość pico2wave na standardowym Ubuntu, ponieważ jeden z tych głosów jest dostępny jako gotowy pakiet.

Aby Festiwal brzmiał naturalnie, oto co zrobić:

sudo apt-get install festival
sudo apt-get install festvox-us-slt-hts
festival -i
festival> (voice_cmu_us_slt_arctic_hts) 
festival> (SayText "Don't hate me, I'm just doing my job!")

Możesz to zrobić z wiersza poleceń, używając -b(lub --batch) i umieszczając każde polecenie w pojedynczym cudzysłowie:

festival -b '(voice_cmu_us_slt_arctic_hts)' \
    '(SayText "The temperature is 22 degrees centigrade and there is a slight breeze from the west.")'

Możesz uzyskać inne całkiem dobre głosy z repozytorium Nitech, ale instalacja ich jest skomplikowana, a domyślne ścieżki zmieniają się, więc odniesienia do nazw plików w plikach schematów pakietowych mogą wymagać ręcznej edycji, aby działały na standardowym Ubuntu.


2
Btw, w Ubuntu 16.04, ten pakiet wydaje się brakować. Możesz pobrać i zainstalować deb z Debiana, który będzie działał dobrze: packages.debian.org/sid/all/festvox-us-slt-hts/download sudo dpkg -i Downloads / festvox-us-slt-hts_0.2010.10. 25-2_all.deb
Jon Watte

13

Prosty Google ™ TTS

Aktualizacja ze strony projektu (2019-02) : Ten projekt jest obecnie nieobsługiwany i pozostanie nim w najbliższej przyszłości


Z powodu braku lepszej alternatywy napisałem skrypt bash, który łączy się ze skryptem perla autorstwa Michała Fapso, aby zapewnić TTS za pośrednictwem Tłumacza Google. Z opisu projektu:

Celem jest zapewnienie łatwego w użyciu interfejsu do przetwarzania tekstu na mowę za pośrednictwem systemu syntezy mowy Google. Opcja rezerwowa przy użyciu pico2wave automatycznie zapewnia syntezę TTS w przypadku braku połączenia z Internetem.

W tej chwili opakowanie obsługuje czytanie ze standardowego wejścia, zwykłych plików tekstowych i zaznaczenia X (podświetlony tekst).

Główne cechy to:

  • synteza TTS online za pomocą tłumaczenia Google
  • synteza offline TTS przez pico2wave
  • obsługuje wiele różnych języków
  • potrafi czytać z CLI, plików tekstowych i wyróżnionego tekstu
  • obsługuje czytanie wyróżnionego tekstu ze stałym formatowaniem (np. pliki PDF)

Instalacja i użytkowanie są udokumentowane na stronie projektu .

Byłbym zadowolony, gdybyś spróbował. Zgłoszenia błędów i wszelkie inne opinie są mile widziane!


To musi być jeden z najfajniejszych projektów, jakie kiedykolwiek widziałem. Po prostu łał. 😲

5
To już nie jest utrzymywane.
Goddard,

8

Szukałem wysokiego i niskiego poziomu tekstu na mowę dla Ubuntu, która jest wysokiej jakości. Nie ma żadnego. Moje struny głosowe są sparaliżowane, więc potrzebowałem TTS, aby dodać instrukcje głosowe do moich filmów Ubuntu . Można uzyskać wysokiej jakości komercyjny Linux tekstu do mowy oprogramowania tutaj . To jest po prostu bardzo drogie. Ostatecznie kupiłem Natural Reader na Windows (nie działa w Ubuntu pod Wine) za 40 USD. Może później zdobędę Linuksa.


koleś, jest i używałem tego, jak w zeszłym tygodniu jest ich co najmniej 5 lub 6 i nie mogę dla mojego życia znaleźć żadnego z nich teraz, muszę pokochać naszą społeczność
mchid

Textaloud ma instrukcje, aby ich produkt działał pod winem. zobacz nextup.com/forum/viewtopic.php?t=3349 Uważam, że cepstral ma również port linux. Nie udało mi się uruchomić mojego ulubionego oprogramowania balabolka. Mam Windows 10 zainstalowany głównie do przetwarzania tts. MS David jest dobry i podobny do cepstralnego Davida. Poprzedni jest bezpłatny, jeśli masz Windows 10.
Bhikkhu Subhuti

6

Prowadzę badania nad najlepiej brzmiącymi i łatwo dostrojonymi głosami tekstu na mowę. Poniżej znajduje się lista 5 najlepszych produktów pod względem jakości dźwięku. Większość stron internetowych powiązanych z tym produktem ma interaktywne demo, które pozwoli ci podjąć własną decyzję.

  1. NeoSpeech
  2. iVona
  3. Acapela
  4. AT&T Naturalne głosy
  5. Głosy CereProc

1
czy są dostępne dla systemu Linux? nie sądzę
Mehdi Khademloo,

5

Uważam głosy Nitech HTS na festiwalu za bardzo naturalne i pocieszające w porównaniu z innymi głosami, które słyszałem. Zobacz ten link, jak skonfigurować Nitech i inne dźwięki w festiwalu. Nie znalazłem dobrego GUI, którego mogę użyć do skonfigurowania tych głosów, ale ustawienie ich za pomocą festival.scm nadal działa. Ten post jest bardzo stary i możesz znaleźć rzeczywisty katalog instalacyjny za pomocą polecenia „locate festival”


Wydaje się być bardzo dobry. Znaleziono dema tutaj cstr.ed.ac.uk/projects/festival/onlinedemo.html
Iacchus

2
Tak, głosy Nitech są głowami i ramionami nad innymi głosami Festiwalu (z wyjątkiem głosów CMU, które są również bardzo dobre.) Szkoda, że ​​trudno je zainstalować. Istnieje jeden dobry głos CMU, który ma domyślny pakiet w Ubunut, nazywa się cmu_us_slt_arctic_hts i jest dostępny w pakiecie festvox-us-slt-hts. Jest znacznie lepszy niż pico lub espeak!
Jon Watte,

5

Połącz narzędzia SVOX (pico) z LibreOffice:

Narzędzia SVOX (pico) są łatwe w instalacji i zapewniają dobrej jakości głosy w Ubuntu. Zainstaluj to:

sudo apt-get install libttspico0 libttspico-utils libttspico-data

Możesz używać LibreOffice w połączeniu z narzędziami SVOX (pico), instalując rozszerzenie „Czytaj tekst” i uzyskujesz „GUI” dla tego doskonałego oprogramowania TTS:

Skonfiguruj opcje Read Text Extension za pomocą Narzędzia - Dodatki - Czytaj zaznaczenie .... Użyj / usr / bin / python jako programu zewnętrznego. Wybierz opcję wiersza polecenia, która zawiera token (PICO_READ_TEXT_PY) , możesz chcieć eksperymentować z niektórymi z nich.

Teraz musisz tylko zaznaczyć tekst w LO Writer, Calc, Impress lub Draw i kliknąć ikonę dodaną jako pasek narzędzi (szczęśliwa twarz z balonem).


4

Oto, co zrobiłem, aby mieć czystą naturalną mowę dla plików pdf i innych plików tekstowych (inne rozwiązania nie są naturalne lub są to po prostu płatne usługi). To jest właściwie obejście przy użyciu chromu lub chromu, ale działa szybko i łatwo.

  1. Zainstaluj SpeakIt! rozszerzenie na twoim chromie lub chromie.
  2. Zainstaluj przeglądarkę PDF, jeśli używasz chromu (chrome ma już przeglądarkę pdf za darmo) i zaznacz opcje „Zezwalaj na incognito” i „Zezwalaj na dostęp do adresów URL plików” w ustawieniach rozszerzeń chromu.
  3. Przeciągnij i upuść plik pdf do przeglądarki.
  4. Teraz zaznacz tekst i kliknij prawym przyciskiem myszy i wybierz SpeakIt! dzięki czemu możesz słuchać czystego, naturalnego tekstu na mowę.

Istnieją również sposoby otwierania innych plików, takich jak .doc i .txt w chrome, i rób to samo. Istnieją inne rozszerzenia dla Chrome, które wyświetlają pliki pdf, sprawdź, czy bardziej Ci odpowiada. Poza tym możesz przesyłać wszelkiego rodzaju teksty na Dysk Google i używać SpeakIt! przeczytać to dla ciebie. Inne rozszerzenie o nazwie „Mów tekst” działa w ten sam sposób i ma naturalną mowę.


Czy możesz opracować sposób, w jaki SpeakIt czyta pliki pdf zapisane na Dysku Google?
Marco Lackovic

2

Szukając lepszego silnika tts do użycia z nowym trybem narracyjnym Firefoksa 49 , znalazłem pico tts (svox) - mój ulubiony silnik TTS.

sudo apt install espeak libttspico0 libttspico-data libttspico-utils

Jak zmienić domyślny system całego silnika syntezy mowy?

Ludzie z arch. Linuxa doprowadzili mnie na właściwą ścieżkę:

Odkomentuj moduł, który ci się podoba i ustaw go jako domyślny w ustawieniach dyspozytora mowy:

# sudo vim /etc/speech-dispatcher/speechd.conf

[...]
# -----OUTPUT MODULES CONFIGURATION-----
# Each AddModule line loads an output module.
#AddModule "espeak"       "sd_espeak"   "espeak.conf"
AddModule "pico-generic"  "sd_generic"   "pico-generic.conf"

[...]
#DefaultModule espeak
DefaultModule pico-generic

Uruchom ponownie demona:

# sudo systemctl restart speech-dispatcher.service

ALE, kiedy ponownie uruchamiasz Firefoksa, nic się nie dzieje. Zgodnie z powyższym linkiem (arch forum 10 i 16) działa z festiwalem (nie próbował), ale dyspozytor mowy dla pico nie wyświetla dostępnych głosów. To nie będzie działać.

Każdy pomysł będzie mile widziany ;-)


1

Mój ulubiony program zamiany tekstu na mowę nazywa się Magic English, ale podobnie jak Natural Reader wspomniany przez Joe Steigera, jest to program Windows i nie jestem pewien, czy będzie działał pod Wine.

AT&T Natural Voices jest dostępne online jako wersja demonstracyjna, ale jest to raczej obejście niż rozwiązanie ...


1

Prosty Google ™ TTS

Pico, mbrola, cmu, festiwal, flite, wszystko SUCK w 2017 roku (były niesamowite w latach 90.). Naturalna mowa AT&T (co jest fantastyczne) nie jest zgodna z Linuksem i nie jest darmowa, dlatego używamy Google

git clone https://github.com/Glutanimate/simple-google-tts.git
sudo apt install xsel libnotify-bin libttspico0 libttspico-utils libttspico-data libwww-perl libwww-mechanize-perl libhtml-tree-perl so$
cd simple-google-tts
sudo ln -s `pwd`/simple_google_tts /usr/local/bin
simple_google_tts en "Text to speech is now installed"
cd -

To jest duplikat odpowiedzi Glutanimate (autor tego projektu). Ponadto: „Aktualizacja statusu: Ten projekt jest obecnie nieobsługiwany i pozostanie nim w najbliższej przyszłości”. Sugeruje kilka alternatyw
Pablo A

1

gTTS

gTTS ( Google Text-to-Speech ), biblioteka Pythona i narzędzie CLI do współpracy z interfejsem API syntezy mowy Google Translate. Zapisuje mówione mp3dane do pliku, obiektu podobnego do pliku (bajtowanie) w celu dalszej manipulacji dźwiękiem lub stdout.

Minusy : tylko CLI. Musisz być online, ponieważ wymaga zgłoszenia do publicznego publicznego punktu końcowego Google.

sudo -H pip install gTTS  # Install

Stosowanie

gtts-cli 'hello' --output hello.mp3
gtts-cli -l es 'Nadie es patria, todos lo somos' | play -t mp3 -

Dokumentacja i więcej przykładów

Inne

Niektóre zostały już wspomniane


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.