Offline Sprachausgabe in hoher Qualität

haselchen

Hey...

erstmal Hut ab für die Anleitung. Super gemacht.
Kannst Du vielleicht ein paar Anwendungsfälle geben?

Vielleicht habe ich auch nicht richtig um die Ecke gedacht.
Text und MP3 kann ich ja auch so auf dem Google z.b. ausgeben lassen.
Dazu muss natürlich die ganze Maschinerie laufen, aber das muss Dein Server ja dann auch.....

uweklatt

@haselchen sagte in Offline Sprachausgabe in hoher Qualität:

Kannst Du vielleicht ein paar Anwendungsfälle geben?
Text und MP3 kann ich ja auch so auf dem Google z.b. ausgeben lassen.

Die Hauptmotivation war, ohne die Cloud auszukommen.
Die gesamte Sprachgenerierung erfolgt offline, also ohne Cloud. Und das Ergebnis ist deutlich besser, als andere lokale Sprachgeneratoren.

Durch die Implementierung in Verbindung mit einem Webserver kann man die Spracherzeugung leicht in viele Tools und Projekte integrieren.

Längerfristig möchte ich auch die Spracheingabe lokal erledigen.

Tschau
Uwe

P.S: Hier das Ergebnis des Textes "Peiper funktioniert prima im lokalen Netzwerk": play.mp3

liv-in-sky

@uweklatt

wo findet letztlich die ausgabe statt ?

uweklatt

@liv-in-sky sagte in Offline Sprachausgabe in hoher Qualität:

wo findet letztlich die ausgabe statt ?

In meinem Fall auf einem Google Home mini (mit dem Chromecast Adapter).
Man kann die WAV-Datei aber auch mit einem anderen Netzwerkplayer ausgeben.

Tschau
Uwe

liv-in-sky

@uweklatt

also braucht man natürlich eine alexa oder google box

uweklatt

@liv-in-sky sagte in Offline Sprachausgabe in hoher Qualität:

also braucht man natürlich eine alexa oder google box

Nein, jedes "Gerät", das WAV-Dateien im lokalen Netzwerk abspielen kann, kann für die Ausgabe verwendet werden. (z.B. auch ein RasPi).

Im Prinzp kann der TTS Server auch selbst die Ausgabe übernehmen, wenn er einen Audioausgang hat. Dann kann die WAV-Datei mit z.B.

aplay /var/www/html/tts.wav

direkt ausgegeben werden. Noch eleganter ist es, die Ausgabe von Piper direkt als Stream in das Audiodevice zu leiten. Piper kann auch direkt Audiodaten als RAW Stream generieren...

Tschau
Uwe

jwerlsdf

@uweklatt
Vielen Dank für die Anleitung. Ich habe noch zwei/drei Fragen:

Gibt es eine Möglichkeit , anstatt Thorsten eine weibliche Frsuenstimme zu installieren? Wie sähe dies aus?
Gibt es die Möglichkeit anstatt wav eine mp3 zu erzeugen?
Anstatt chromecast könnte ich ja die Datei such über sonos abspielen?!

Beste Grüße

uweklatt

@jwerlsdf
Es gibt auch deutsche Frauenstimmen. Die Namen sind oben verlinkt.
Man muss dazu den Namen der Stimme in der PHP Datei austauschen.
In der verfügbaren Qualität "low" klingen die aber nicht so gut wie Thorsten "high".

Ein MP3 erfordert noch einen weiteren Konvertierungsschritt, z.B. mit ffmpeg.
Auch das kann man in das PHP Script integrieren.

Wenn man dem Sonos eine Datei zum Abspielen übermitteln kann, geht das.
Leider kenne ich die Sonos Geräte zu wenig, um das konkret zu beantworten.

Tschau
Uwe

Rene55

@uweklatt Ich geb mich die Tage auch mal dadran - ich hab den Sayit nie ans laufen bekommen (oder falsch verstanden).

uweklatt

@rene55
Du hast ja auch Proxmox am laufen. Mein Setup läuft ebenfalls als Proxmox LXC mit dem Devuan 4 Image.

Tschau
Uwe

Shadowhunter23

@uweklatt sagte in Offline Sprachausgabe in hoher Qualität:

In der verfügbaren Qualität "low" klingen die aber nicht so gut wie Thorsten "high".

Warum gibt es nur Thorsten als "high" Version?

uweklatt

@shadowhunter23
Keine Ahnung.

Thorsten-Voice

Guude !
Bin durch @uweklatt auf diesen Thread aufmerksam geworden und habe mich auch gerade erst hier registriert. Sehr schöne Anleitung übrigens .

Mein Name ist Thorsten, Gründer von Thorsten-Voice und zugehöriger Stimmspender.

@Shadowhunter23 : Meine Stimme ist generell auch in der Qualitätsstufen "low" und "medium", sowie in div. Emotionen verfügbar. Woran hängt es denn?

Viele Grüße
Thorsten

uweklatt

@thorsten-voice
Die Frage war eher, warum es die anderen Stimmen nicht auch in hoher Qualität gibt.

Tschau
Uwe

Thorsten-Voice

@uweklatt Ups, ich sollte tatsächlich richtig lesen 🤦‍♂️.

Mike, der Entwickler von Piper hat die meisten Modelle in "medium" trainiert. Ich habe mein Thorsten Modell selber in "high" trainiert und bereitgestellt.
Eventuell kann man in der Piper Community anfragen, ob er ein anderes deutschsprachiges Modell auch noch in "high" trainieren kann.

pejasus

@uweklatt
Danke für diese GENIALE Anleitung!, ich habe Sie auf einem Raspi4 installiert - ohne größere Probleme!

Community Forum

NEWS

Offline Sprachausgabe in hoher Qualität

Support us

409

33.0k

83.5k

1.3m