Rhasspy Offline Sprachsteuerung

ignis-draco

Hi,

ich habe vor ein paar Tagen auch angefangen mit Rhasspy und IoBroker zu spielen.

Da ich die Version mit dem Externen MQTT Broker und auch die Version mit Node-Red nicht gut finde habe ich versucht es mit Javascript (bzw. TypeScript) umzusetzen.

Aktuell läuft es und ich kann Anfangen den Funktionsumfang weiter aufzubauen.

Mein Weg ist aktuell.

Websocket zum intent des Rhasspy Server aufbauen.

Um doppel Auslösungen werden Mesagge nur ausgewertet wenn mehr als 8 Sekunden zwischen zwei Nachrichten liegen.
Unter "0_userdata.0.offline_speak" werden Datenpunkte angelegt in denen die Infos aus der Nachricht gespeichert werden (Es kann sein das dort noch welche fehlen.)

const WebSocket = require('ws');
const ws = new WebSocket('ws://192.168.3.203:12101/api/events/intent');

ws.onmessage = function(event){
    let stamp = new Date(new Date(getState('0_userdata.0.offline_speak.intent.name').ts).getTime() + 8000)
    let now = new Date()

    if(now > stamp){
        //console.log("raw: " + event.data);  
        let intent : string = event.data.match( /"intent":.*?}/)[0];
        let slots : string = event.data.match( /"slots":.*?}/)[0];
        //console.log("intent: " + intent); 
        //console.log("slots: " + slots); 
        let parts : string[] = intent.match( /{.*?}/ )[0].split(",")
        for ( let i of parts){
            let values : string[] = i.split(":");
            let id :string = values[0].match(/".*"/)[0].slice(1,-1).trim();

            let value : string;
            if (values[1].indexOf('"') != -1){
                value = values[1].match(/".*"/)[0].slice(1,-1).trim();
            }else{
                value = values[1].slice(0,-1).trim();
            }
            if(existsState('0_userdata.0.offline_speak.intent.'+id)){
                setState('0_userdata.0.offline_speak.intent.'+id,value);
            }else{
                createState(('0_userdata.0.offline_speak.intent.'+id), value, {name: 'Rhasspy '+id});
            }
        }

        if(slots.length > 25){
            parts  = slots.match( /{.*?}/ )[0].split(",")
            for ( let i of parts){
                let values : string[] = i.split(":");
                let id :string = values[0].match(/".*"/)[0].slice(1,-1).trim();

                let value : string;
                if (values[1].indexOf('"') != -1){
                    value = values[1].match(/".*"/)[0].slice(1,-1).trim();
                }else{
                    value = values[1].slice(0,-1).trim();
                }
                if(existsState('0_userdata.0.offline_speak.slots.'+id)){
                    setState('0_userdata.0.offline_speak.slots.'+id,value);
                }else{
                    createState(('0_userdata.0.offline_speak.slots.'+id), value, {name: 'Rhasspy '+id});
                }
            }
        }
    }
}

Wenn das die Infos in den Datenpunkte sind können diese mittels eines zweiten Scripts verarbeitet werden.

Mein Script sieht bis jetzt so aus.
Die Rückantwort passiert wie hier schon beschriebene über den HTTP Post request.

function sendText(text : string):void{
   var options = {
       method: 'POST',
       url: "http://192.168.3.203:12101/api/text-to-speech"
   }
   console.log("Sende: "+text);
   var post_req = request(options, function (error, res, body) { });
   post_req.write(text);
   post_req.end();
}


on({id: '0_userdata.0.offline_speak.intent.name', change: "any"} , function (obj){
   console.log("neuer wert "+ obj.state.val);
   let command :string = obj.state.val
   var date  = new Date();

   switch(command){
       case "GetTime":
           let time : string = " Es ist ";
           time +=date.toLocaleTimeString([],{hour: "2-digit", minute: "2-digit",hour12: false})
           sendText(time);
           break;
       case "GetTemperature":
           let temp : string = " Es sind ";
           temp += getState('daswetter.0.NextDaysDetailed.Location_1.Day_1.Hour_'+date.getHours()+'.temp_value').val + "°C.";
           sendText(temp);
           break;
       case "GetGarageState":
           break;
       case "ChangeLightState":
           let lamp : string = getState('0_userdata.0.offline_speak.slots.name').val
           let state : number = (getState('0_userdata.0.offline_speak.slots.state').val === "ein") ? 100 :0 ; 
           setState('zigbee.0.00158d0003882c5c.brightness', state);
            sendText("okay");
           break; 
       case "GetFuel":
           let text:string= "Es ist am günstigsten bei "
           text += getState('tankerkoenig.0.stations.cheapest.e5.name').val
           text += " mit "
           text += getState('tankerkoenig.0.stations.cheapest.e5.short').val + "€"
           sendText(text);
           break;
   }   
});

Ich weiß noch nicht ob dies der "bessere" oder "schlechter" weg ist als über MQTT.

[EDIT]
Mir ist gerade aufgefallen das es zu einem Problem kommt wenn jemand versucht das script zu starten wenn der Datenpunkt "'0_userdata.0.offline_speak.intent.name'" nicht vorher per Hand angelegt wurde.
Bei Interesse werde ich das Problem noch beheben.

Gruß
Ignis-draco

tazdevil20

Hi,
habe mich mal wieder mit Rhasspy beschäftigt. Vor einem halben Jahr bin ich gescheitert wegen der Erkennung der Audio-HW (Respeaker 2). Jetzt hat es nach vielen Installationen mal funktioniert. Musste jedoch feststellen, dass wenn ich auf den externen MQTT umstelle die Audio-HW nicht erkannt wird.
Da ich ohne Docker arbeite komme ich jedoch ohne Probleme an den MQTT-Server ran und kann diesen subscriben.

Ich möchte hauptsächlich einen/mehrere Timer realisieren (für die Küche). Irgendwo in dem Thread hat jemand geschrieben, dass das direkt im Rhasspy möglich ist. Ich finde jedoch keine Möglichkeit. Könnte mir da jemand auf die Sprünge helfen?

System 9

Hallo,
ich habe folgendes Problem.
Sobald ich den externen MQTT verwende, funktioniert leider das Intent Reconize nicht mehr, schalte ich ihn auf Intern, ist das ergebniss ruckzug da.
Auch spricht leider mein Node-Red skript nicht auf das MQTT an(nur über die WS schnittstelle).
Woran könnte das liegen

als MQTT Server verwende ich den Iobroker.

[ERROR:2021-08-03 10:56:08,454] root: parse_mqtt_message (topic=hermes/audioServer/Rhasspy/audioSummary)
Traceback (most recent call last):
  File "/usr/lib/rhasspy/rhasspy-hermes/rhasspyhermes/client.py", line 303, in parse_mqtt_message
    json_payload = json.loads(payload)
  File "/usr/lib/python3.7/json/__init__.py", line 348, in loads
    return _default_decoder.decode(s)
  File "/usr/lib/python3.7/json/decoder.py", line 337, in decode
    obj, end = self.raw_decode(s, idx=_w(s, 0).end())
  File "/usr/lib/python3.7/json/decoder.py", line 355, in raw_decode
    raise JSONDecodeError("Expecting value", s, err.value) from None
json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)
[DEBUG:2021-08-03 10:56:08,455] rhasspyserver_hermes: Sent 370 char(s) to websocket
[ERROR:2021-08-03 10:56:08,456] root: parse_mqtt_message (topic=hermes/nlu/intentNotRecognized)
Traceback (most recent call last):
  File "/usr/lib/rhasspy/rhasspy-hermes/rhasspyhermes/client.py", line 303, in parse_mqtt_message
    json_payload = json.loads(payload)
  File "/usr/lib/python3.7/json/__init__.py", line 348, in loads
    return _default_decoder.decode(s)
  File "/usr/lib/python3.7/json/decoder.py", line 337, in decode
    obj, end = self.raw_decode(s, idx=_w(s, 0).end())
  File "/usr/lib/python3.7/json/decoder.py", line 355, in raw_decode
    raise JSONDecodeError("Expecting value", s, err.value) from None
json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)
[DEBUG:2021-08-03 10:56:08,456] rhasspyserver_hermes: Sent 370 char(s) to websocket
[ERROR:2021-08-03 10:56:08,458] root: parse_mqtt_message (topic=hermes/asr/textCaptured)
Traceback (most recent call last):
  File "/usr/lib/rhasspy/rhasspy-hermes/rhasspyhermes/client.py", line 303, in parse_mqtt_message
    json_payload = json.loads(payload)
  File "/usr/lib/python3.7/json/__init__.py", line 348, in loads
    return _default_decoder.decode(s)
  File "/usr/lib/python3.7/json/decoder.py", line 337, in decode
    obj, end = self.raw_decode(s, idx=_w(s, 0).end())
  File "/usr/lib/python3.7/json/decoder.py", line 355, in raw_decode
    raise JSONDecodeError("Expecting value", s, err.value) from None
json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)
[DEBUG:2021-08-03 10:56:10,283] rhasspyserver_hermes: <- NluIntent(input='what time is it', intent=Intent(intent_name='GetTime', confidence_score=1.0), site_id='Rhasspy', id='847230fc-e4ee-4bf6-807e-f1c69ca6b4f7', slots=[], session_id='847230fc-e4ee-4bf6-807e-f1c69ca6b4f7', custom_data=None, asr_tokens=[[AsrToken(value='what', confidence=1.0, range_start=0, range_end=4, time=None), AsrToken(value='time', confidence=1.0, range_start=5, range_end=9, time=None), AsrToken(value='is', confidence=1.0, range_start=10, range_end=12, time=None), AsrToken(value='it', confidence=1.0, range_start=13, range_end=15, time=None)]], asr_confidence=None, raw_input='what time is it', wakeword_id=None, lang=None)
[DEBUG:2021-08-03 10:56:10,284] rhasspyserver_hermes: Handling NluIntent (topic=hermes/intent/GetTime, id=761ebd35-f529-4b47-8d0b-e8ead13fad28)
[DEBUG:2021-08-03 10:56:10,284] rhasspyserver_hermes: Handling NluIntent (topic=hermes/intent/GetTime, id=2716ba16-42ba-46cd-9efa-f9731b34e82e)
[DEBUG:2021-08-03 10:56:10,284] rhasspyserver_hermes: Handling NluIntent (topic=hermes/intent/GetTime, id=39d1735e-c7cd-42ea-b1d8-ca2cd5f4d1c9)
[DEBUG:2021-08-03 10:56:10,285] rhasspyserver_hermes: Handling NluIntent (topic=hermes/intent/GetTime, id=c8b73a1b-b644-47ac-b017-92fff677fa27)
[DEBUG:2021-08-03 10:56:10,285] rhasspyserver_hermes: Handling NluIntent (topic=hermes/intent/GetTime, id=5dc4f052-7faa-4563-b7de-5d75965be31b)
[DEBUG:2021-08-03 10:56:10,285] rhasspyserver_hermes: Handling NluIntent (topic=hermes/intent/GetTime, id=aa45f176-bce0-4017-ad65-a6786a903eb2)
[DEBUG:2021-08-03 10:56:10,285] rhasspyserver_hermes: Handling NluIntent (topic=hermes/intent/GetTime, id=0411fd43-3d79-4c64-b9cd-26e2b66ae661)
[DEBUG:2021-08-03 10:56:10,286] rhasspyserver_hermes: Handling NluIntent (topic=hermes/intent/GetTime, id=5a95257a-ea83-4709-8879-f6fa16c1bf5d)
[DEBUG:2021-08-03 10:56:10,286] rhasspyserver_hermes: Handling NluIntent (topic=hermes/intent/GetTime, id=b8098ce6-0856-4b46-9d99-90baac7f7954)
[DEBUG:2021-08-03 10:56:10,286] rhasspyserver_hermes: Handling NluIntent (topic=hermes/intent/GetTime, id=8780f6ed-acd4-44db-b995-a7a19e94742b)
[DEBUG:2021-08-03 10:56:10,287] rhasspyserver_hermes: Handling NluIntent (topic=hermes/intent/GetTime, id=c8d2995a-d1a6-48e3-a5ba-d55cc3e0de1e)

jwerlsdf

@dert
hi,
ich habe jetzt schon länger dein Skript am Laufen. Jetzt habe ich einen weiteren Rhasspy in einem weiteren Raum installiert. Wo muss ich nun genau im Skript diesen eintragen?
Bei

Funktioniert dies leider nicht.

Edit:
hat funktioniert. Ich habe ein Komma vergessen...

DerT

@jwerlsdf
Schön das mein Skript genutzt wird :)
Welche Funktionen in Rhasspy nutzt du denn? Hat zufällig schon jemand solche Themen wie Spotify und Einkaufsliste gelöst?
Wegen dieser beiden Themen ist das Projekt bei mir gescheitert und ich bin doch wieder auf eine Amazon Wanze gegangen xD.

Gruß
T

jwerlsdf

@dert
tobetobe hat das mit der Bring-Liste ja gelöst. Es funktioniert bei mir. Das Problem ist jedoch, dass alle Lebensmittel-Wörter in Rhasspy aufgenommen werden müssen. Dafür habe ich dann von Lebensmittelseiten die Wörter reinkopiert. Für mich reicht es aber.
Ansonsten steuere ich das übliche: Lichter, Musik (Amazon über Sonos), Wetter.
In der Regel benutze ich dein Skript um Datenpunkte zu schalten, die dann wiederum meine Blocklys schaltet. Ist etwas umständlich, aber funktioniert bei mir.

DerT

@jwerlsdf

Okay, das mit der Liste an Lebensmittel hatte ich auch und wollte es so nicht. Beim erkennen von Sätzen ohne die Vorgabe von Wörtern war die Erkennung miserabel.

Wieso schaltest du über dDatenpunkte blocklys und nicht die Geräte direkt?

jwerlsdf

@dert
bei Lichtern z.B. mach ich das auch. Möchte ich aber meine Musik über Sonos API hören, geht das nur über ein Extra-Skript. Dies ist für mich als Laie einfacher...

CarstenDerGroße

@dert

Ansicht läuft das Skript super, Spotify (über Logitech Mediaserver) ist aktuell auch noch ein Thema bei mir. Hab aktuell leider zu wenig Zeit.

ChrizZz

nach 382 Nachrichten habe ich mich jetzt auch ziemlich aufgeschlaut und freue mich, dass ihr noch aktiv Rhasspy nutzt oder noch in der Weiterentwicklung seid. Ich stecke noch in der Überlegungsphase, ob im Zuge des Hausumbaus die Haussteuerung per Rhasspy Offline Spracherkennung durchführe. Da das für die Basics nach euren Hinweisen gut funktionieren wird, wollte ich euch noch mit ein paar anderen Fragen belästigen :)

Ist der externe MQTT Server noch immer die empfohlene Variante? In der Zwischenzeit gab es noch ein paar Updates von Rhasspy und im Netz bin ich jetzt auch häufig auf Verknüpfungen über die HTTP API mit Node-Red gestoßen

Hat jemand von euch schonmal versucht externe Smart Speaker zu verknüpfen? Sehe es kritisch mit Pi Zero 2 W und einem Lautsprecher einen guten Smart Speaker mit guter Klangqualität zu bauen, möchte aber in Bad und Küche nicht darauf verzichten.

Hat jemand von euch Erfahrung mit der (inoffiziellen?) Android App? Perspektivisch wohl auch eine iOS App - Meine Idee ist ein altes Android Tablet als Bedienungszentrale zu nutzen und da würde es sich anbieten das Tablet auch als weiteren Satelliten in die gesamte Struktur einzubinden.

Gutscho

@chrizzz
Ich hoffe das Thema ist noch Aktuell. Ich habe mir mehrere "Smartspeaker" (wenn man das noch so nennen kann) mit Pi Zero WH + Hifiberry AMP2 + Teufel Ultima 40 und 20 Lautsprecher gebaut. Natürlich kann der AMP2 nicht die volle Leistung aus den Lautsprechern holen, aber es reicht für eine wunderschöne und wenn nötig sehr laute Beschallung von meinen Räumen.

Softwareseitig habe ich bisher folgendes umgesetzt:

Rhasspy mit Radiosendern und Räumen gefüttert die ich einzeln anfragen kann
Node-RED steuert meinen Logitech Media Server. Hierfür habe ich mir eine .json Datei mit den Radiosendern gebastelt in der die Stream-URLs zu den Sendern sind. Diese werden über ein Script in Node-RED durchsucht und dann an den jeweilig gewünschten PiCorePlayer/Squeezeplayer (mit node-red-contrib-logitechmediaserver) weitergereicht. Außerdem kann ich die Lautstärke der Räume verändern und die Musik ausschalten/einschalten/pausieren.
Rhasspy mutet bei Wakeword die Musikplayer für 3 Sekunden für bessere Sprachverständlichkeit
in IOBroker habe ich dann noch den LMS eingebunden und kann auch hier steuern
am Smartphone habe ich zusätzlich Squeezer drauf dass auch hierüber die Player gesteuert werden können

ToDo's bzw. Wunschdenken sind bei mir noch:

vorgefertigte Playlisten zum Aufruf hinzufügen dass diese auch per Sprachsteuerung angestartet werden können
Multiroom durch Bewegungsmelder im neuen Haus (noch im Bau) steuern, dass wenn ich z.B. aus der Küche in den Flur gehe hier die Musik von der Küche weiterläuft. Wenn keiner mehr in der Küche ist wird hier der Player automatisch ausgeschaltet.
InWall Eigenbau-Lautsprecher bauen für Bad, Küche, Essbereich aus Bausätze mit SBAcoustics by ADW

System 9

Hallo,

habe bie mri jetzt 15 Sateliten verbaut und angebunden.
Leider habe ich noch ein riesen Problem mit dem Intent Recognition.
Zur Zeit nutze ich fsticuffs. Gibt es hier bessere varianten ?

derAlff

@system-9 zu besseren Varianten kann ich leider nichts sagen, da ich gerade erst mit dem Thema Rhasspy anfange. Aber hast du eventuell einen Link zum Code der Sattellites für mich? Danke ;)

System 9

@deralff
anbei mein Sattelit.

{
"dialogue": {
"system": "rhasspy"
},
"intent": {
"remote": {
"url": "http://:12101/api/text-to-intent"
},
"satellite_site_ids": "Wohnzimmer",
"system": "remote"
},
"microphone": {
"pyaudio": {
"device": "1"
},
"system": "pyaudio"
},
"mqtt": {
"enabled": "",
"site_id": "Wohnzimmer"
},
"speech_to_text": {
"remote": {
"url": "http://:12101/api/speech-to-text"
},
"satellite_site_ids": "Wohnzimmer",
"system": "remote"
},
"text_to_speech": {
"remote": {
"url": "http://*:12101/api/speech-to-text"
},
"system": "remote"
},
"wake": {
"raven": {
"keywords": {
"jarvis": {
"enabled": true
}
}
},
"system": "raven"
}
}

PackElend

Moin,
die Unterhaltung ist ja schon über zwei Jahre alt und hat schon bald 400 Beiträge gesammelt.
Gibt es denn ein akutelles Resumé, bzw. hat sicher der ganze Prozess verglichen mit den Anfängen schon stark verbessert?
danke

ChrizZz

@packelend gefühlt nicht wirklich. Auch ob Rhasspy "die" Lösung ist/sein wird, ist zumindest für mich fraglich. Der Rhasspy Entwickler arbeitet jetzt für Mycroft und viel Bewegung in der Rhasspy Community ist auch nicht erkennbar. Sehr schade...

kuumaur

@packelend
Moin,
was meinst Du mit "stark verbessert"?

PackElend

@kuumaur said in Rhasspy Offline Sprachsteuerung:

was meinst Du mit "stark verbessert"?
Ich habe nur den Anfang gelesen aber es schien mir, dass es nicht auf anhieb geht, bzw. viele Schritte zu machen sind.

@chrizzz said in Rhasspy Offline Sprachsteuerung:

Der Rhasspy Entwickler arbeitet jetzt für Mycroft und viel Bewegung in der Rhasspy Community ist auch nicht erkennbar. Sehr schade...

Immerhin ist er da gut aufgehoben und wird Mycroft weiteren Aufschwung geben.
Dass es eine kommerzielle Komponente braucht, um das mittels Open Source weiterzutreiben ist eine Tatsache, die man nicht verneinen kann.

kuumaur

@packelend
Viele Schritte ist immer relativ.
Kommt darauf an, was Du bereits bei Dir am Laufen hast.

Rhasspy ist i.d.R. als Docker Container im Einsatz
Mqtt Broker als Container
deine IOBroker Instanz
Mqtt Client Adapter
Mqtt Hermes/# abonieren
Rhasspy-Satelliten bauen
so weit, so gut.
Die "richtige" Arbeit fängt nun an.
Intents im Rhasspy einrichten (Licht an/aus, Mülltonne-Kalender, etc.)
JScript im IOBroker schreiben oder fertiges JScript abwandeln

Rhasspy läuft bei mir seit >2 Jahren ohne (techn.) Probleme.
Aus meiner Sicht leiden alle Voice-Assistenten an dem gleichen Problem, dass die Mikrofonperformance in lauten Umgebungen (Wohnzimmer, Küche, etc.) stark schwankend ist. Das könnte man aus meiner Sicht als Resume bezeichnen. Die Rhasspy Community sieht es ähnlich. Ohne gute Audio-Codecs ist das Nutzungserlebnis stark schwankend.
Ich habe 4 Satelliten im Einsatz, alle mit unterschiedlichen Mikrophonen. Kein Satellit kann wirklich bei lauteren Umgebungen überzeugen. Würde ich zu Amazon oder Google etc. wechseln? Nein, auf keinen Fall. Im Alltag kristallisieren sich die Intents heraus, die am nützlichsten sind. Diese habe ich dann optimiert und ein akzeptables Niveau gefunden.