Rhasspy Offline Sprachsteuerung

Gutscho

@chrizzz
Ich hoffe das Thema ist noch Aktuell. Ich habe mir mehrere "Smartspeaker" (wenn man das noch so nennen kann) mit Pi Zero WH + Hifiberry AMP2 + Teufel Ultima 40 und 20 Lautsprecher gebaut. Natürlich kann der AMP2 nicht die volle Leistung aus den Lautsprechern holen, aber es reicht für eine wunderschöne und wenn nötig sehr laute Beschallung von meinen Räumen.

Softwareseitig habe ich bisher folgendes umgesetzt:

Rhasspy mit Radiosendern und Räumen gefüttert die ich einzeln anfragen kann
Node-RED steuert meinen Logitech Media Server. Hierfür habe ich mir eine .json Datei mit den Radiosendern gebastelt in der die Stream-URLs zu den Sendern sind. Diese werden über ein Script in Node-RED durchsucht und dann an den jeweilig gewünschten PiCorePlayer/Squeezeplayer (mit node-red-contrib-logitechmediaserver) weitergereicht. Außerdem kann ich die Lautstärke der Räume verändern und die Musik ausschalten/einschalten/pausieren.
Rhasspy mutet bei Wakeword die Musikplayer für 3 Sekunden für bessere Sprachverständlichkeit
in IOBroker habe ich dann noch den LMS eingebunden und kann auch hier steuern
am Smartphone habe ich zusätzlich Squeezer drauf dass auch hierüber die Player gesteuert werden können

ToDo's bzw. Wunschdenken sind bei mir noch:

vorgefertigte Playlisten zum Aufruf hinzufügen dass diese auch per Sprachsteuerung angestartet werden können
Multiroom durch Bewegungsmelder im neuen Haus (noch im Bau) steuern, dass wenn ich z.B. aus der Küche in den Flur gehe hier die Musik von der Küche weiterläuft. Wenn keiner mehr in der Küche ist wird hier der Player automatisch ausgeschaltet.
InWall Eigenbau-Lautsprecher bauen für Bad, Küche, Essbereich aus Bausätze mit SBAcoustics by ADW

System 9

Hallo,

habe bie mri jetzt 15 Sateliten verbaut und angebunden.
Leider habe ich noch ein riesen Problem mit dem Intent Recognition.
Zur Zeit nutze ich fsticuffs. Gibt es hier bessere varianten ?

derAlff

@system-9 zu besseren Varianten kann ich leider nichts sagen, da ich gerade erst mit dem Thema Rhasspy anfange. Aber hast du eventuell einen Link zum Code der Sattellites für mich? Danke ;)

System 9

@deralff
anbei mein Sattelit.

{
"dialogue": {
"system": "rhasspy"
},
"intent": {
"remote": {
"url": "http://:12101/api/text-to-intent"
},
"satellite_site_ids": "Wohnzimmer",
"system": "remote"
},
"microphone": {
"pyaudio": {
"device": "1"
},
"system": "pyaudio"
},
"mqtt": {
"enabled": "",
"site_id": "Wohnzimmer"
},
"speech_to_text": {
"remote": {
"url": "http://:12101/api/speech-to-text"
},
"satellite_site_ids": "Wohnzimmer",
"system": "remote"
},
"text_to_speech": {
"remote": {
"url": "http://*:12101/api/speech-to-text"
},
"system": "remote"
},
"wake": {
"raven": {
"keywords": {
"jarvis": {
"enabled": true
}
}
},
"system": "raven"
}
}

PackElend

Moin,
die Unterhaltung ist ja schon über zwei Jahre alt und hat schon bald 400 Beiträge gesammelt.
Gibt es denn ein akutelles Resumé, bzw. hat sicher der ganze Prozess verglichen mit den Anfängen schon stark verbessert?
danke

ChrizZz

@packelend gefühlt nicht wirklich. Auch ob Rhasspy "die" Lösung ist/sein wird, ist zumindest für mich fraglich. Der Rhasspy Entwickler arbeitet jetzt für Mycroft und viel Bewegung in der Rhasspy Community ist auch nicht erkennbar. Sehr schade...

kuumaur

@packelend
Moin,
was meinst Du mit "stark verbessert"?

PackElend

@kuumaur said in Rhasspy Offline Sprachsteuerung:

was meinst Du mit "stark verbessert"?
Ich habe nur den Anfang gelesen aber es schien mir, dass es nicht auf anhieb geht, bzw. viele Schritte zu machen sind.

@chrizzz said in Rhasspy Offline Sprachsteuerung:

Der Rhasspy Entwickler arbeitet jetzt für Mycroft und viel Bewegung in der Rhasspy Community ist auch nicht erkennbar. Sehr schade...

Immerhin ist er da gut aufgehoben und wird Mycroft weiteren Aufschwung geben.
Dass es eine kommerzielle Komponente braucht, um das mittels Open Source weiterzutreiben ist eine Tatsache, die man nicht verneinen kann.

kuumaur

@packelend
Viele Schritte ist immer relativ.
Kommt darauf an, was Du bereits bei Dir am Laufen hast.

Rhasspy ist i.d.R. als Docker Container im Einsatz
Mqtt Broker als Container
deine IOBroker Instanz
Mqtt Client Adapter
Mqtt Hermes/# abonieren
Rhasspy-Satelliten bauen
so weit, so gut.
Die "richtige" Arbeit fängt nun an.
Intents im Rhasspy einrichten (Licht an/aus, Mülltonne-Kalender, etc.)
JScript im IOBroker schreiben oder fertiges JScript abwandeln

Rhasspy läuft bei mir seit >2 Jahren ohne (techn.) Probleme.
Aus meiner Sicht leiden alle Voice-Assistenten an dem gleichen Problem, dass die Mikrofonperformance in lauten Umgebungen (Wohnzimmer, Küche, etc.) stark schwankend ist. Das könnte man aus meiner Sicht als Resume bezeichnen. Die Rhasspy Community sieht es ähnlich. Ohne gute Audio-Codecs ist das Nutzungserlebnis stark schwankend.
Ich habe 4 Satelliten im Einsatz, alle mit unterschiedlichen Mikrophonen. Kein Satellit kann wirklich bei lauteren Umgebungen überzeugen. Würde ich zu Amazon oder Google etc. wechseln? Nein, auf keinen Fall. Im Alltag kristallisieren sich die Intents heraus, die am nützlichsten sind. Diese habe ich dann optimiert und ein akzeptables Niveau gefunden.

PackElend

@kuumaur said in Rhasspy Offline Sprachsteuerung:

Kommt darauf an, was Du bereits bei Dir am Laufen hast.

iobroker noch nicht im Einsatz, möchte dies aber in den nächsten Wochen angehen.

@kuumaur said in Rhasspy Offline Sprachsteuerung:

Die Rhasspy Community sieht es ähnlich. Ohne gute Audio-Codecs ist das Nutzungserlebnis stark schwankend.

das heisst? Closed-Source-Codecs?

@kuumaur said in Rhasspy Offline Sprachsteuerung:

Kein Satellit kann wirklich bei lauteren Umgebungen überzeugen.

ist die Frage, kann https://mycroft.ai/product/mark-ii/ dies besser?

kuumaur

@packelend
Nicht aus der Sicht der Audio/Microphone Performance.
Das ist vermutlich ein Lizenz-, wie auch ein Hardware-, als auch ein Wake-Word-Problem (KWS). Die Threads zu dem Thema sind ellenlang (@rolyan_trauts ist da scheinbar sehr aktiv). Meine Frau und ich haben einiges an Zeit in Rhasspy investiert. Meine Frau hat sogar Ihre Stimme "gespendet" für Rhasspy.
Also versteh mich nicht falsch; Rhasspy läuft, ist aber keine Klick-Klick-Fertig-Geschichte s.o.

PackElend

danke für die fixe antwort

@kuumaur said in Rhasspy Offline Sprachsteuerung:

Also versteh mich nicht falsch; Rhasspy läuft, ist aber keine Klick-Klick-Fertig-Geschichte s.o.

vielleicht ist es keine dumme Idee mit https://mycroft.ai/product/mark-ii/ anzufangen als Hauptgeräte und dann mit Rhasspy weitere Räume auszustatten.

@kuumaur said in Rhasspy Offline Sprachsteuerung:

Also versteh mich nicht falsch; Rhasspy läuft, ist aber keine Klick-Klick-Fertig-Geschichte s.o.

keine Angst ist schon davor angekommen :)

@kuumaur said in Rhasspy Offline Sprachsteuerung:

dass die Mikrofonperformance in lauten Umgebungen (Wohnzimmer, Küche, etc.) stark schwankend ist.
was heisst laut?
Küchenmaschinen, TV oder laute Unterhaltung...?

kuumaur

@packelend
Ja, Geschirrspüler, Dunstabzug, Radio, TV, Musik, Unterhaltung mit mehreren Personen.
Je nach Mikrofon und Soundkarte hat man sehr unterschiedliche Ergebnisse.
Ich habe von Ring- bis Richtmikrofon alles im Einsatz ...

PackElend

@kuumaur said in Rhasspy Offline Sprachsteuerung:

Ich habe von Ring- bis Richtmikrofon alles im Einsatz ...

kannst du mal ne Auflistung machen :innocent: ?

kuumaur

@packelend
Richtmikro in der Küche = Boya BY-MM1 (Ok mit Unterhaltung oder Radio oder Geschirrspüler, nicht ok Dunstabzug)
Respeaker-2/Raspberry ZeroW im Büro (Ok, bin alleine im Büro und Radio ist leise)
Respeaker-4 im Wintergarten (mmmh, so la la in allen Bereichen)
Lavalier Omnidirektional mini Mikro im Wohnzimmer (Ok wenn der Fernseher in Zimmerlautstärke ist)
Im Test befinden sich noch MAX9814 Mikrofonverstärker.
Wie geschrieben, fehlen eigentlich passende Codecs. Der Respeaker-4 ist eigentlich perfekt, wenn es passende codecs gäbe.
Ach ja, in der Pipeline ist noch ein Jabra 410/510 Konferenzmikro ...

ChrizZz

@packelend said in Rhasspy Offline Sprachsteuerung:

@chrizzz said in Rhasspy Offline Sprachsteuerung:

Der Rhasspy Entwickler arbeitet jetzt für Mycroft und viel Bewegung in der Rhasspy Community ist auch nicht erkennbar. Sehr schade...

Immerhin ist er da gut aufgehoben und wird Mycroft weiteren Aufschwung geben.
Dass es eine kommerzielle Komponente braucht, um das mittels Open Source weiterzutreiben ist eine Tatsache, die man nicht verneinen kann.

Ja, definitiv schön, dass er in der "Szene" bleibt. Ist nur schade zu sehen, dass die Community bei Rhasspy ausstirbt.

@kuumaur du hast ja ein richtiges Versuchslabor. Schade, dass es an den Codecs liegt. Mal eine doofe Frage: Haben die kommerziellen Lösungen ihre eigenen Codecs oder haben die extrem gute Mikros im Einsatz? Kann mir das mit den guten Mikros nicht vorstellen...

kuumaur

@chrizzz
meiner eigenen Einschätzung nach, ist Hardware bei den Amazon, Google, Apple Geräten nicht sehr teuer. Vermutlich sind die gleichen Mikrofone verbaut, wie man sie überall kaufen kann.
DasGeheimniss liegt darin die Richtung des Schalls, Rauschen, Stimme usw. gut zu filtern. Das geht zum Teil mit Codecs und zum Teil mit "Ki". Tensorflow und Konsorten spielen da sicherlich auch eine Rolle. Ich denke, dass das auf der Basis von Opensource durchaus machbar ist. Ich würde Rhasspy noch nicht abschieben. Ich denke die Problematik ist Allen bekannt, auch Mycroft.
Vielleicht kann man die Performance zwischen Rhasspy und den kommerziellen Geräten am besten vergleichen, wenn man z.B. Amazon Echo nur auf dem Smartphone installiert hat. Hier ist die Performance deutlich schlechter als bei den Hardware Echos.

jwerlsdf

Hallo,
ich habe folgendes Problem. Ich bin umgezogen und wollte nach einem Jahr wieder das System in Betrieb nehmen. Leider geht nichts mehr. Habe also das alte Image bei dem alles funktioniert hatte, neu eingespielt, aber es geht weiter nicht. Die LEDs werden nicht angezeigt, ebenfalls komme ich nicht mehr auf das webinterface.
Also habe ich das gesamte System neu aufgesetzt. Jetzt komme ich wieder auf das Webinterface, das Mikrofon geht auch, aber die LEDs werden nicht gesteuert, nachdem ich das Wakeword gesagt habe.
Habe folgendes dann installiert:

git clone --depth 1 https://github.com/respeaker/pixel_ring.git
cd pixel_ring
pip install -U -e .
python examples/respeaker_4mic_array.py

Die LEDs leuchten auf, aber wie gesagt, beim Wakeword snowboy funktionieren die LEDs nicht.

Hat jemand eine Idee?

Hardware Rp4; Respeaker 6

jwerlsdf

Noch ein Nachtrag: Hat es jemand geschafft, den "Beep" bzw. die Sprachausgabe an Sonos (API) zu übermitteln?

Uelpi

Der mqtt Broker ist die Rhasspy Informationsdrehscheibe. Der Informationsaustausch innerhalb der Rhasspy Prozesse ist recht intensiv (z. B. die Sprachnachrichten). Nach meiner Ansicht sollte diese Informationsdrehscheibe auf dem Rhasspy Hardware System angesiedelt sein. Deshalb favorisiere ich den in Rhasspy eingebauten mqtt Broker. Ich frage mich, warum man einen externen mqtt verwenden sollte.

Wenn man Rhasspy in einem Docker Container betreibt, muss man zusätzlich zu dem Rhasspy GUI Port noch den mqtt Broker Port freigeben:
$ docker run -d -p 12101:12101 -p 12183:12183
--name rhasspy
--restart unless-stopped
-v "$HOME/.config/rhasspy/profiles:/profiles"
-v "/etc/localtime:/etc/localtime:ro"
--device /dev/snd:/dev/snd
rhasspy/rhasspy
--user-profiles /profiles
--profile en

In ioBroker habe ich den Client des MQTT Broker/Client Adapters verwendet.

Community Forum

NEWS

Rhasspy Offline Sprachsteuerung

Support us

676

32.6k

82.3k

1.3m