Rhasspy Offline Sprachsteuerung

wizzardking

Hallo zusammen

Da Alexa bei mir immer mal wieder Ärger macht und nicht ganz so zuverlässig funktioniert wie gewünscht, würde ich ebenfalls gerne Rhasspy eine Chance geben um die Sprachsteuerung ohne Online-Zwang und Einschränkungen zum Laufen zu bekommen.

Ich möchte mich entschuldigen, falls die folgenden Fragen weiter oben schon beantwortet wurde, es hat aber inzwischen doch schon so einige Posts hier.

Wie funktioniert Rhasspy mit diversen Standorten in einem Haus?
Ich würde gerne wirklich alle Räume mit einer Spracherkennung abdecken können, bin mir aber nicht sicher, ob das zuverlässig funktioniert.

Wenn ich also z.B. im Eingangsbereich und im Wohnzimmer Rhasspy am Laufen habe, ich irgendwo zwischendrin stehe und das Wakeword sage, erkennt Rhasspy automatisch, wo die beste Aufnahme ist?

Wie ist zudem generell eure Langzeiterfahrung betreffend Stabilität? Unabhängig von der Überwachung geht es mir beim Wechsel vor allem darum, dass ich ein System habe, welches ich einmalig aufsetzen kann und welches dann auch zuverlässig macht, was es soll.

jwerlsdf

@dert
hallo ich habe soweit alles eingefügt. Leider ohne Erfolg. Wenn ich snowboy mit dem Befehl Stehlampe aus sage, dann wird es im Rhasspy webif erkannt, aber ansonsten passiert nichts.
Habe im Skript bei Stehlampe den homematic-Pfad angepasst, ansonsten habe ich nichts im Skript verändert.
Wo könnte der Fehler liegen?
Außerdem werden bei mir die hermes/intents nicht angezeigt. Woran könnte das liegen?

DerT

@jwerlsdf
Hi,
kannst du mir kurz sagen auf welches Skript du dich beziehst? Hast du mehrere rhasspys oder nur einen?

Gruß
T

jwerlsdf

@dert
danke für deine Rückmeldung.
Ich habe bisher nur einen Rhasspy. Dieser läuft aber auf einem anderen Raspberry 4 als iobroker läuft. Die Verbindung mit dem iobroker steht (Adapter ist grün)
Ich beziehen mich auf das Skript, welches du auf Seite 315 gepostet hast.

Noch ein Hinweis:
@LichtAn hat auf Seite 290 ein Bild gepostet, bei dem darauf einen Ordner mit Intents mit den entsprechenden Einträgen zu sehen sind. Diese fehlen mir. Werden diese automatisch erstellt oder muss ich diese manuell anlegen?

OK. Es scheint, jetzt zu gehen. Musste im MQTT-Adapter folgendes ändern:

#hermes/intent/#,hermes/asr/startListening,hermes/nlu/intentNotRecognized,hermes/intent/#,hermes/asr/#,hermes/dialogueManager/#,hermes/nlu/#

Damit werden nun die intents angezeigt und ich kann nun die Befehle per Sprache absetzen. Schaue mir jetzt noch mal deinen code an. Ggf. habe ich noch ein paar Fragen dazu.

Eine andere Frage hätte ich noch: Wie kann ich die Sprachausgabe über Sonos API ausgeben? Hat da jemand eine Idee?

CarstenDerGroße

@dert
@dert

WoW dein Script finde ich klasse ich habe allerdings eine sache die ich anders machen würde und zwar die tts ausgaben. Statt über die api würde ich dies ebenfalls über mqtt zu erledigen um nicht zwei protokolle zu vermischen.

in etwa so:


function extractIntentData(message) {

    const parsedMessage = JSON.parse(message);

    let extractedJSON = {};

    extractedJSON.slots = {};

    extractedJSON.intentName = parsedMessage.intent.intentName;

    extractedJSON.siteId = parsedMessage.siteId;

	extractedJSON.Id = parsedMessage.SessionId;
 
    parsedMessage.slots.forEach(slot => {

        extractedJSON.slots[slot.slotName] = slot.value.value;

    });

    return extractedJSON;

}

 

//Damit kann jeder Rhasspy sprechen

function speakRhasspy(text, rhasspySiteId ,sid) {

    console.log(rhasspySiteId);
	
	let sendData = {
        sessionId: sid,
        siteId: site,
        text: msg
	
	};

	let jsonObj = JSON.stringify(sendData);
	
	if(sid != "0") {
	
		sendTo('mqtt.0', 'sendMessage2Client', {topic:"hermes/dialogueManager/endSession", message:jsonObj});	
    
	}
	else {
		
		sendTo('mqtt.0', 'sendMessage2Client', {topic:"hermes/tts/say", message:jsonObj});	
	
	}

}

lässt sich sicher auch eleganter lösen :) bin in JS noch nicht so gut.
Übrigens ist diese lösung aus dem FHEM modul abgekupfert, da dieses bereits schon weit entwickelt ist.

Zu 1. ich arbeite mit snowboy werde allerdings versuchen auf raven zu wechseln
Zu 2. ich nutze google Wavenet (shame on me doch wieder Cloud aber es hört sich gut an)
Zu 3. Da mein Produktives Rhasspy noch unter FHEM läuft habe ich meinen Logitechmediaserver über rhasspy angebunden und dies funktioniert recht gut ich weiß nur noch nicht wie ich das über iobroker abbilden werde da ich aktuell umsteiger bin (u.A wegen dem fehlenden multithreading in fhem das nervt echt :))

einen schönen abend gewünscht

Carsten

jwerlsdf

Hallo,
folgendes Szenario würde ich gerne umsetzen:
Wenn ich einen Sprachbefehl gebe, wird dies ja in iobroker in den intents abgebildet. Hat jemand ein blockly, der die intents nach diesem Befehl durchsucht und dann ein Datenpunkt schaltet? So wäre es ja prinzipiell möglich, jedes beliebige Skript zu schalten? Könnte mir jemand helfen?

joergeli

@jwerlsdf
Hi,
Ich hatte ganz am Anfang dieses Threads mal ein JavaScript vorgestellt, mit dem die Intents ausgewertet können:
https://forum.iobroker.net/topic/28411/rhasspy-offline-sprachsteuerung/8

Das war aber noch bevor Hermes in Rhasspy implementiert wurde, d.h. die MQTT-Variablen müssen angepasst werden.
Ist zwar kein blockly, aber evtl. hilft es Dir weiter?

jwerlsdf

@joergeli
danke für deine Rückmeldung. In der Zwischenzeit habe ich es noch mal mit dem Skript von @DerT probiert (315). Habe es damit nun hinbekommen. Ich schalte damit einen Datenpunkt, der wiederrum dann ein anderes Skript (Blockly) schaltet. Sind zwar längere Wege, aber für jemanden wie mich einfacher umzusetzen.

Jetzt hoffe noch, dass mir jemand beim bring-Adapter helfen könnte. Dort bekomme ich den Intent-befehl nicht in den Bring adapter geschrieben...

LichtAn

@jwerlsdf
@tobetobe

Das mit der Bring Liste werde ich mir die nächste Zeit mal austesten. Vielen Dank schonmal.

kuumaur

@carstendergroße
Hier mal ein Beispiel von mir:
(Ist nicht schön gelöst, aber funktioniert. JScript ist nicht meine Welt)
Vorraussetzung:

slots anlegen
Adapter Squeezeboxrpc installieren
ich verwende das Basis-Script von @DerT, glaube ich.

radiostation: function (json){
const objectName = json.slots.objectName;
const StateFriendly = json.slots.state;
const state = convertStateToBool(json.slots.state);
const roomName = json.slots.room;
const room = rooms[roomName];
if (typeof roomName == 'undefined') {
roomName = rhasspySites[json.siteId].room;
room = rooms[roomName];
console.warn(1) Object='${objectName}' | roomName='${roomName}' | room='${room}' | rhasspy='${rhasspySites[json.siteId].room}');
}
if (roomName == "küche") {
if (objectName == "ndr twei") {
speakRhasspy(ok, der Sender '${objectName}' ist bei '${roomName}' zu hören, json.siteId);
setState("squeezeboxrpc.0.Players.esprimomobilev6505.Power", 1);
setState("squeezeboxrpc.0.Players.esprimomobilev6505.cmdPlayFavorite", 1)
}
}
if (roomName == "büro") {
if (objectName == "sputnik") {
speakRhasspy(ok, der Sender '${objectName}' ist bei '${roomName}' zu hören, json.siteId);
setState("squeezeboxrpc.0.Players.pi1.Power", 1);
setState("squeezeboxrpc.0.Players.pi1.cmdPlayFavorite", 1)
}
}
---snip---
PS: Beim "pasten" sind einige Steuer- Klammer- und Anführungszeihen zeichen entfernt worden.

kuumaur

@carstendergroße said in Rhasspy Offline Sprachsteuerung:

function speakRhasspy(text, rhasspySiteId ,sid) {

Moin, was muss für die Funktion bei "sid" übergeben werden?
Danke und Gruß

CarstenDerGroße

@kuumaur das soll die sessionId darstellen 😅 bin etwas schreibfaul.

kuumaur

@carstendergroße
Ja, das habe ich mir auch schon gedacht. Mir ist nur nicht klar wo für diese ist. Bei mir funktioniert das Ganze leider nicht. Ich bekomme zwar keinen Fehler, aber es erfolgt auch keine Sprachausgabe. Wenn es funktioniert könnte ich mir den Webserver auf dem Satelliten sparen.

CarstenDerGroße

@kuumaur ich teste das selber nochmal bei mir wenn ich Zeit habe. Die sessionId ist notwendig um die aktuelle Session nach Sprachausgabe zu beenden soweit ich das verstanden habe

CarstenDerGroße

So ich habe den fehler gefunden :)

folgende funktion hab ich geändert:

function extractIntentData(message) {

    const parsedMessage = JSON.parse(message);

    let extractedJSON = {};

    extractedJSON.slots = {};

    extractedJSON.intentName = parsedMessage.intent.intentName;

    extractedJSON.siteId = parsedMessage.siteId;

	extractedJSON.Id = parsedMessage.sessionId;

    parsedMessage.slots.forEach(slot => {

        extractedJSON.slots[slot.slotName] = slot.value.value;

    });

    return extractedJSON;

}

Nach einer ausgeführten aktion wird folgendes aufgerufen:

speakRhasspy(`Gewünschter TTS text`,json.Id, json.siteId);

kuumaur

@carstendergroße said in Rhasspy Offline Sprachsteuerung:

function extractIntentData(message) {

mmmh,
bei mir klappt das noch nicht.
Das Script läuft zwar fehlerfrei durch, aber es findet keine Sprachausgabe statt.
javascript.0 (15225) script.js.common.RemoteControl_VoiceAssistant: sendTo(adapter=mqtt.0, cmd=sendMessage2Client, msg={"topic":"hermes/dialogueManager/endSession","message":"{"siteId":"pi2","msg":"Dieser Text sollte gesprochen werden!"}"})

// Speak over mqtt (Test)
function speakRhasspyMqtt(text, rhasspySiteId, sid) {
    if(debug_mode==true){console.log("speakRhasspyMqtt | rhasspySiteId=" + rhasspySiteId);}
	let sendData = {
        sessionId: sid,
        siteId: rhasspySiteId,
        msg: text
	};
	let jsonObj = JSON.stringify(sendData);
	if(sid != 0) {
		sendTo('mqtt.0', 'sendMessage2Client', {topic:"hermes/dialogueManager/endSession", message:jsonObj});	
	}
	else {
		sendTo('mqtt.0', 'sendMessage2Client', {topic:"hermes/tts/say", message:jsonObj});	
	}
}

@carstendergroße said in Rhasspy Offline Sprachsteuerung:

So ich habe den fehler gefunden :)

folgende funktion hab ich geändert:

function extractIntentData(message) {

    const parsedMessage = JSON.parse(message);

    let extractedJSON = {};

    extractedJSON.slots = {};

    extractedJSON.intentName = parsedMessage.intent.intentName;

    extractedJSON.siteId = parsedMessage.siteId;

	extractedJSON.Id = parsedMessage.sessionId;

    parsedMessage.slots.forEach(slot => {

        extractedJSON.slots[slot.slotName] = slot.value.value;

    });

    return extractedJSON;

}

Nach einer ausgeführten aktion wird folgendes aufgerufen:

speakRhasspy(`Gewünschter TTS text`,json.Id, json.siteId);

mmmh,
das klappt bei mir noch nicht. Irgendetwas mache ich falsch.
Das Script läuft sauber ohne Fehler durch.
Kannst Du mal einen Blick darüber werfen?
Danke.

javascript.0 (15225) script.js.common.RemoteControl_VoiceAssistant: sendTo(adapter=mqtt.0, cmd=sendMessage2Client, msg={"topic":"hermes/dialogueManager/endSession","message":"{"sessionId":"pi2","siteId":"pi2-jarvis_raspberry-pi-0047de6a-17bb-47ae-9a8e-1ee238b71077","msg":"Dieser Text wird gesprochen."}"})

// Speak over mqtt (Test)
function speakRhasspyMqtt(text, rhasspySiteId, sid) {
    if(debug_mode==true){console.log("speakRhasspyMqtt | rhasspySiteId=" + rhasspySiteId);}
	let sendData = {
        sessionId: sid,
        siteId: rhasspySiteId,
        msg: text
	};
	let jsonObj = JSON.stringify(sendData);
	if(sid != 0) {
		sendTo('mqtt.0', 'sendMessage2Client', {topic:"hermes/dialogueManager/endSession", message:jsonObj});	
	}
	else {
		sendTo('mqtt.0', 'sendMessage2Client', {topic:"hermes/tts/say", message:jsonObj});	
	}
}

CarstenDerGroße

@kuumaur

msg={"topic":"hermes/dialogueManager/endSession","message":"{"sessionId":"pi2","siteId":"pi2-jarvis_raspberry-pi-0047de6a-17bb-47ae-9a8e-1ee238b71077","msg":"Dieser Text wird gesprochen."}"})

Eigentlich müsste bei sessionId die vom Dialogmanager generierte ID stehen verstehe nur gerade nicht wieso das nicht der Fall ist

kuumaur

@carstendergroße
Kann das an den mqtt Abos liegen?
Hier meine abonnierten Kanäle:
hermes/intent/#,hermes/leds/#,hermes/asr/#,hermes/dialogueManager/#,hermes/nlu/#,hermes/tts/#

CarstenDerGroße

@kuumaur Eigentlich nicht. Da ich aktuell mein rhasspy über fhem laufen habe kann ich leider nicht produktiv testen

ignis-draco

Hi,

ich habe vor ein paar Tagen auch angefangen mit Rhasspy und IoBroker zu spielen.

Da ich die Version mit dem Externen MQTT Broker und auch die Version mit Node-Red nicht gut finde habe ich versucht es mit Javascript (bzw. TypeScript) umzusetzen.

Aktuell läuft es und ich kann Anfangen den Funktionsumfang weiter aufzubauen.

Mein Weg ist aktuell.

Websocket zum intent des Rhasspy Server aufbauen.

Um doppel Auslösungen werden Mesagge nur ausgewertet wenn mehr als 8 Sekunden zwischen zwei Nachrichten liegen.
Unter "0_userdata.0.offline_speak" werden Datenpunkte angelegt in denen die Infos aus der Nachricht gespeichert werden (Es kann sein das dort noch welche fehlen.)

const WebSocket = require('ws');
const ws = new WebSocket('ws://192.168.3.203:12101/api/events/intent');

ws.onmessage = function(event){
    let stamp = new Date(new Date(getState('0_userdata.0.offline_speak.intent.name').ts).getTime() + 8000)
    let now = new Date()

    if(now > stamp){
        //console.log("raw: " + event.data);  
        let intent : string = event.data.match( /"intent":.*?}/)[0];
        let slots : string = event.data.match( /"slots":.*?}/)[0];
        //console.log("intent: " + intent); 
        //console.log("slots: " + slots); 
        let parts : string[] = intent.match( /{.*?}/ )[0].split(",")
        for ( let i of parts){
            let values : string[] = i.split(":");
            let id :string = values[0].match(/".*"/)[0].slice(1,-1).trim();

            let value : string;
            if (values[1].indexOf('"') != -1){
                value = values[1].match(/".*"/)[0].slice(1,-1).trim();
            }else{
                value = values[1].slice(0,-1).trim();
            }
            if(existsState('0_userdata.0.offline_speak.intent.'+id)){
                setState('0_userdata.0.offline_speak.intent.'+id,value);
            }else{
                createState(('0_userdata.0.offline_speak.intent.'+id), value, {name: 'Rhasspy '+id});
            }
        }

        if(slots.length > 25){
            parts  = slots.match( /{.*?}/ )[0].split(",")
            for ( let i of parts){
                let values : string[] = i.split(":");
                let id :string = values[0].match(/".*"/)[0].slice(1,-1).trim();

                let value : string;
                if (values[1].indexOf('"') != -1){
                    value = values[1].match(/".*"/)[0].slice(1,-1).trim();
                }else{
                    value = values[1].slice(0,-1).trim();
                }
                if(existsState('0_userdata.0.offline_speak.slots.'+id)){
                    setState('0_userdata.0.offline_speak.slots.'+id,value);
                }else{
                    createState(('0_userdata.0.offline_speak.slots.'+id), value, {name: 'Rhasspy '+id});
                }
            }
        }
    }
}

Wenn das die Infos in den Datenpunkte sind können diese mittels eines zweiten Scripts verarbeitet werden.

Mein Script sieht bis jetzt so aus.
Die Rückantwort passiert wie hier schon beschriebene über den HTTP Post request.

function sendText(text : string):void{
   var options = {
       method: 'POST',
       url: "http://192.168.3.203:12101/api/text-to-speech"
   }
   console.log("Sende: "+text);
   var post_req = request(options, function (error, res, body) { });
   post_req.write(text);
   post_req.end();
}


on({id: '0_userdata.0.offline_speak.intent.name', change: "any"} , function (obj){
   console.log("neuer wert "+ obj.state.val);
   let command :string = obj.state.val
   var date  = new Date();

   switch(command){
       case "GetTime":
           let time : string = " Es ist ";
           time +=date.toLocaleTimeString([],{hour: "2-digit", minute: "2-digit",hour12: false})
           sendText(time);
           break;
       case "GetTemperature":
           let temp : string = " Es sind ";
           temp += getState('daswetter.0.NextDaysDetailed.Location_1.Day_1.Hour_'+date.getHours()+'.temp_value').val + "°C.";
           sendText(temp);
           break;
       case "GetGarageState":
           break;
       case "ChangeLightState":
           let lamp : string = getState('0_userdata.0.offline_speak.slots.name').val
           let state : number = (getState('0_userdata.0.offline_speak.slots.state').val === "ein") ? 100 :0 ; 
           setState('zigbee.0.00158d0003882c5c.brightness', state);
            sendText("okay");
           break; 
       case "GetFuel":
           let text:string= "Es ist am günstigsten bei "
           text += getState('tankerkoenig.0.stations.cheapest.e5.name').val
           text += " mit "
           text += getState('tankerkoenig.0.stations.cheapest.e5.short').val + "€"
           sendText(text);
           break;
   }   
});

Ich weiß noch nicht ob dies der "bessere" oder "schlechter" weg ist als über MQTT.

[EDIT]
Mir ist gerade aufgefallen das es zu einem Problem kommt wenn jemand versucht das script zu starten wenn der Datenpunkt "'0_userdata.0.offline_speak.intent.name'" nicht vorher per Hand angelegt wurde.
Bei Interesse werde ich das Problem noch beheben.

Gruß
Ignis-draco

Community Forum

NEWS

Rhasspy Offline Sprachsteuerung

Support us

381

33.0k

83.5k

1.3m