NEWS
Rhasspy Offline Sprachsteuerung
-
@dert
bei Lichtern z.B. mach ich das auch. Möchte ich aber meine Musik über Sonos API hören, geht das nur über ein Extra-Skript. Dies ist für mich als Laie einfacher... -
Ansicht läuft das Skript super, Spotify (über Logitech Mediaserver) ist aktuell auch noch ein Thema bei mir. Hab aktuell leider zu wenig Zeit.
-
nach 382 Nachrichten habe ich mich jetzt auch ziemlich aufgeschlaut und freue mich, dass ihr noch aktiv Rhasspy nutzt oder noch in der Weiterentwicklung seid. Ich stecke noch in der Überlegungsphase, ob im Zuge des Hausumbaus die Haussteuerung per Rhasspy Offline Spracherkennung durchführe. Da das für die Basics nach euren Hinweisen gut funktionieren wird, wollte ich euch noch mit ein paar anderen Fragen belästigen
Ist der externe MQTT Server noch immer die empfohlene Variante? In der Zwischenzeit gab es noch ein paar Updates von Rhasspy und im Netz bin ich jetzt auch häufig auf Verknüpfungen über die HTTP API mit Node-Red gestoßen
Hat jemand von euch schonmal versucht externe Smart Speaker zu verknüpfen? Sehe es kritisch mit Pi Zero 2 W und einem Lautsprecher einen guten Smart Speaker mit guter Klangqualität zu bauen, möchte aber in Bad und Küche nicht darauf verzichten.
Hat jemand von euch Erfahrung mit der (inoffiziellen?) Android App? Perspektivisch wohl auch eine iOS App - Meine Idee ist ein altes Android Tablet als Bedienungszentrale zu nutzen und da würde es sich anbieten das Tablet auch als weiteren Satelliten in die gesamte Struktur einzubinden.
-
@chrizzz
Ich hoffe das Thema ist noch Aktuell. Ich habe mir mehrere "Smartspeaker" (wenn man das noch so nennen kann) mit Pi Zero WH + Hifiberry AMP2 + Teufel Ultima 40 und 20 Lautsprecher gebaut. Natürlich kann der AMP2 nicht die volle Leistung aus den Lautsprechern holen, aber es reicht für eine wunderschöne und wenn nötig sehr laute Beschallung von meinen Räumen.Softwareseitig habe ich bisher folgendes umgesetzt:
- Rhasspy mit Radiosendern und Räumen gefüttert die ich einzeln anfragen kann
- Node-RED steuert meinen Logitech Media Server. Hierfür habe ich mir eine .json Datei mit den Radiosendern gebastelt in der die Stream-URLs zu den Sendern sind. Diese werden über ein Script in Node-RED durchsucht und dann an den jeweilig gewünschten PiCorePlayer/Squeezeplayer (mit node-red-contrib-logitechmediaserver) weitergereicht. Außerdem kann ich die Lautstärke der Räume verändern und die Musik ausschalten/einschalten/pausieren.
- Rhasspy mutet bei Wakeword die Musikplayer für 3 Sekunden für bessere Sprachverständlichkeit
- in IOBroker habe ich dann noch den LMS eingebunden und kann auch hier steuern
- am Smartphone habe ich zusätzlich Squeezer drauf dass auch hierüber die Player gesteuert werden können
ToDo's bzw. Wunschdenken sind bei mir noch:
- vorgefertigte Playlisten zum Aufruf hinzufügen dass diese auch per Sprachsteuerung angestartet werden können
- Multiroom durch Bewegungsmelder im neuen Haus (noch im Bau) steuern, dass wenn ich z.B. aus der Küche in den Flur gehe hier die Musik von der Küche weiterläuft. Wenn keiner mehr in der Küche ist wird hier der Player automatisch ausgeschaltet.
- InWall Eigenbau-Lautsprecher bauen für Bad, Küche, Essbereich aus Bausätze mit SBAcoustics by ADW
-
Hallo,
habe bie mri jetzt 15 Sateliten verbaut und angebunden.
Leider habe ich noch ein riesen Problem mit dem Intent Recognition.
Zur Zeit nutze ich fsticuffs. Gibt es hier bessere varianten ? -
@system-9 zu besseren Varianten kann ich leider nichts sagen, da ich gerade erst mit dem Thema Rhasspy anfange. Aber hast du eventuell einen Link zum Code der Sattellites für mich? Danke
-
@deralff
anbei mein Sattelit.{
"dialogue": {
"system": "rhasspy"
},
"intent": {
"remote": {
"url": "http://:12101/api/text-to-intent"
},
"satellite_site_ids": "Wohnzimmer",
"system": "remote"
},
"microphone": {
"pyaudio": {
"device": "1"
},
"system": "pyaudio"
},
"mqtt": {
"enabled": "",
"site_id": "Wohnzimmer"
},
"speech_to_text": {
"remote": {
"url": "http://:12101/api/speech-to-text"
},
"satellite_site_ids": "Wohnzimmer",
"system": "remote"
},
"text_to_speech": {
"remote": {
"url": "http://*:12101/api/speech-to-text"
},
"system": "remote"
},
"wake": {
"raven": {
"keywords": {
"jarvis": {
"enabled": true
}
}
},
"system": "raven"
}
} -
Moin,
die Unterhaltung ist ja schon über zwei Jahre alt und hat schon bald 400 Beiträge gesammelt.
Gibt es denn ein akutelles Resumé, bzw. hat sicher der ganze Prozess verglichen mit den Anfängen schon stark verbessert?
danke -
@packelend gefühlt nicht wirklich. Auch ob Rhasspy "die" Lösung ist/sein wird, ist zumindest für mich fraglich. Der Rhasspy Entwickler arbeitet jetzt für Mycroft und viel Bewegung in der Rhasspy Community ist auch nicht erkennbar. Sehr schade...
-
@packelend
Moin,
was meinst Du mit "stark verbessert"? -
@kuumaur said in Rhasspy Offline Sprachsteuerung:
was meinst Du mit "stark verbessert"?
Ich habe nur den Anfang gelesen aber es schien mir, dass es nicht auf anhieb geht, bzw. viele Schritte zu machen sind.@chrizzz said in Rhasspy Offline Sprachsteuerung:
Der Rhasspy Entwickler arbeitet jetzt für Mycroft und viel Bewegung in der Rhasspy Community ist auch nicht erkennbar. Sehr schade...
Immerhin ist er da gut aufgehoben und wird Mycroft weiteren Aufschwung geben.
Dass es eine kommerzielle Komponente braucht, um das mittels Open Source weiterzutreiben ist eine Tatsache, die man nicht verneinen kann. -
@packelend
Viele Schritte ist immer relativ.
Kommt darauf an, was Du bereits bei Dir am Laufen hast.- Rhasspy ist i.d.R. als Docker Container im Einsatz
- Mqtt Broker als Container
- deine IOBroker Instanz
- Mqtt Client Adapter
- Mqtt Hermes/# abonieren
- Rhasspy-Satelliten bauen
so weit, so gut.
Die "richtige" Arbeit fängt nun an. - Intents im Rhasspy einrichten (Licht an/aus, Mülltonne-Kalender, etc.)
- JScript im IOBroker schreiben oder fertiges JScript abwandeln
Rhasspy läuft bei mir seit >2 Jahren ohne (techn.) Probleme.
Aus meiner Sicht leiden alle Voice-Assistenten an dem gleichen Problem, dass die Mikrofonperformance in lauten Umgebungen (Wohnzimmer, Küche, etc.) stark schwankend ist. Das könnte man aus meiner Sicht als Resume bezeichnen. Die Rhasspy Community sieht es ähnlich. Ohne gute Audio-Codecs ist das Nutzungserlebnis stark schwankend.
Ich habe 4 Satelliten im Einsatz, alle mit unterschiedlichen Mikrophonen. Kein Satellit kann wirklich bei lauteren Umgebungen überzeugen. Würde ich zu Amazon oder Google etc. wechseln? Nein, auf keinen Fall. Im Alltag kristallisieren sich die Intents heraus, die am nützlichsten sind. Diese habe ich dann optimiert und ein akzeptables Niveau gefunden. -
@kuumaur said in Rhasspy Offline Sprachsteuerung:
Kommt darauf an, was Du bereits bei Dir am Laufen hast.
iobroker noch nicht im Einsatz, möchte dies aber in den nächsten Wochen angehen.
@kuumaur said in Rhasspy Offline Sprachsteuerung:
Die Rhasspy Community sieht es ähnlich. Ohne gute Audio-Codecs ist das Nutzungserlebnis stark schwankend.
das heisst? Closed-Source-Codecs?
@kuumaur said in Rhasspy Offline Sprachsteuerung:
Kein Satellit kann wirklich bei lauteren Umgebungen überzeugen.
ist die Frage, kann https://mycroft.ai/product/mark-ii/ dies besser?
-
@packelend
Nicht aus der Sicht der Audio/Microphone Performance.
Das ist vermutlich ein Lizenz-, wie auch ein Hardware-, als auch ein Wake-Word-Problem (KWS). Die Threads zu dem Thema sind ellenlang (@rolyan_trauts ist da scheinbar sehr aktiv). Meine Frau und ich haben einiges an Zeit in Rhasspy investiert. Meine Frau hat sogar Ihre Stimme "gespendet" für Rhasspy.
Also versteh mich nicht falsch; Rhasspy läuft, ist aber keine Klick-Klick-Fertig-Geschichte s.o. -
danke für die fixe antwort
@kuumaur said in Rhasspy Offline Sprachsteuerung:
Also versteh mich nicht falsch; Rhasspy läuft, ist aber keine Klick-Klick-Fertig-Geschichte s.o.
vielleicht ist es keine dumme Idee mit https://mycroft.ai/product/mark-ii/ anzufangen als Hauptgeräte und dann mit Rhasspy weitere Räume auszustatten.
@kuumaur said in Rhasspy Offline Sprachsteuerung:
Also versteh mich nicht falsch; Rhasspy läuft, ist aber keine Klick-Klick-Fertig-Geschichte s.o.
keine Angst ist schon davor angekommen
@kuumaur said in Rhasspy Offline Sprachsteuerung:
dass die Mikrofonperformance in lauten Umgebungen (Wohnzimmer, Küche, etc.) stark schwankend ist.
was heisst laut?
Küchenmaschinen, TV oder laute Unterhaltung...? -
@packelend
Ja, Geschirrspüler, Dunstabzug, Radio, TV, Musik, Unterhaltung mit mehreren Personen.
Je nach Mikrofon und Soundkarte hat man sehr unterschiedliche Ergebnisse.
Ich habe von Ring- bis Richtmikrofon alles im Einsatz ... -
@kuumaur said in Rhasspy Offline Sprachsteuerung:
Ich habe von Ring- bis Richtmikrofon alles im Einsatz ...
kannst du mal ne Auflistung machen ?
-
@packelend
Richtmikro in der Küche = Boya BY-MM1 (Ok mit Unterhaltung oder Radio oder Geschirrspüler, nicht ok Dunstabzug)
Respeaker-2/Raspberry ZeroW im Büro (Ok, bin alleine im Büro und Radio ist leise)
Respeaker-4 im Wintergarten (mmmh, so la la in allen Bereichen)
Lavalier Omnidirektional mini Mikro im Wohnzimmer (Ok wenn der Fernseher in Zimmerlautstärke ist)
Im Test befinden sich noch MAX9814 Mikrofonverstärker.
Wie geschrieben, fehlen eigentlich passende Codecs. Der Respeaker-4 ist eigentlich perfekt, wenn es passende codecs gäbe.
Ach ja, in der Pipeline ist noch ein Jabra 410/510 Konferenzmikro ... -
@packelend said in Rhasspy Offline Sprachsteuerung:
@chrizzz said in Rhasspy Offline Sprachsteuerung:
Der Rhasspy Entwickler arbeitet jetzt für Mycroft und viel Bewegung in der Rhasspy Community ist auch nicht erkennbar. Sehr schade...
Immerhin ist er da gut aufgehoben und wird Mycroft weiteren Aufschwung geben.
Dass es eine kommerzielle Komponente braucht, um das mittels Open Source weiterzutreiben ist eine Tatsache, die man nicht verneinen kann.Ja, definitiv schön, dass er in der "Szene" bleibt. Ist nur schade zu sehen, dass die Community bei Rhasspy ausstirbt.
@kuumaur du hast ja ein richtiges Versuchslabor. Schade, dass es an den Codecs liegt. Mal eine doofe Frage: Haben die kommerziellen Lösungen ihre eigenen Codecs oder haben die extrem gute Mikros im Einsatz? Kann mir das mit den guten Mikros nicht vorstellen...
-
@chrizzz
meiner eigenen Einschätzung nach, ist Hardware bei den Amazon, Google, Apple Geräten nicht sehr teuer. Vermutlich sind die gleichen Mikrofone verbaut, wie man sie überall kaufen kann.
DasGeheimniss liegt darin die Richtung des Schalls, Rauschen, Stimme usw. gut zu filtern. Das geht zum Teil mit Codecs und zum Teil mit "Ki". Tensorflow und Konsorten spielen da sicherlich auch eine Rolle. Ich denke, dass das auf der Basis von Opensource durchaus machbar ist. Ich würde Rhasspy noch nicht abschieben. Ich denke die Problematik ist Allen bekannt, auch Mycroft.
Vielleicht kann man die Performance zwischen Rhasspy und den kommerziellen Geräten am besten vergleichen, wenn man z.B. Amazon Echo nur auf dem Smartphone installiert hat. Hier ist die Performance deutlich schlechter als bei den Hardware Echos.