Rhasspy Offline Sprachsteuerung

kuumaur

Moin,
ich lese hier nun schon eine ganze Weile still mit.
Bin begeistert von euch.
Mein Iobroker und Rhasspy Projekt wäre eigentlich schon beendet, wenn ich nicht Schwierigkeiten mit den Mikrofonen der Satelliten hätte.
Mein Setup besteht aus einem zentralen Rhasspy Server v2.5.9, unter Proxmox LXC/Docker.

MQTT = external
Speech to Text = Kaldi
Intent Recognition = Fsticuffs
Text to Speech = NanoTTS
Dialog Management = Rhasspy
also alles weitestgehend Standard.

Meine Satelliten bestehen derzeit aus Raspberry Pi Zero WH + 2-Mic-HAT mit Seeed Treiber und Kernel 5.4.51+.

MQTT = external
Audio Recording = PyAudio
Wake Word = Porqupine
- Keyword File = jarvis...
- Sensivity = 0.5
Speech to Text = Hermes MQTT
Intent Recognition = Hermes MQTT
Text to Speech = Hermes MQTT
Audio Playing = aplay
Dialog Management = Disabled
Intent Handling = Disabled

Lustige Gehäuse habe ich mir natürlich auch ausgedacht.
Also die Technik funktioniert.
Mein Problem sind bislang immer mal wieder die Mikrofone. Sofern es in dem Raum leise ist, funktioniert die Spracherkennung wunderbar.
Sofern Radio, TV oder eine Unterhaltung in dem Raum stattfindet, wird die Trefferquote schnell schlechter.
Das haben ja auch schon andere hier Erkannt.
Ich habe mit der Sensivity schon ein bisschen experimentiert, aber ohne großen Erfolg.
Hat jemand die Problematik mit den Nebengeräuschen schon gelöst oder eingegrenzt?
Hab mit jetzt zum Testen noch einen Rock Pi S bestellt. Der hat eine Soundkarte bereits Onboard.
Ich bin mir bei den Mikrofonen aber nicht sicher, welche und vor allem welche Technik da die bessere Wahl ist.
Hat hier jemand schon Erfahrung damit?
Danke und Gruß
Kuumaur

tobetobe

@lichtan sagte in Rhasspy Offline Sprachsteuerung:

Hat einer von euch schon die Bring Liste erfolgreich integriert.

Hallo, ich hatte dazu mal einen Beitrag gepostet. Such mal in meinem Account. Komme leider gerade nicht dazu, dir das rauszusuchen. Bei Fragen: fragen...

tobetobe

@lichtan sagte in Rhasspy Offline Sprachsteuerung:

Hat einer von euch schon die Bring Liste erfolgreich integriert.

Hallo, ich habe dir meine Beschreibung vom 11.3.20, 23:39 herausgeucht. Falls noch interessant, schau mal hier:

https://forum.iobroker.net/topic/31110/rhasspy-sprachsteuerung-für-bring-adapter?_=1615936753622

wizzardking

Hallo zusammen

Da Alexa bei mir immer mal wieder Ärger macht und nicht ganz so zuverlässig funktioniert wie gewünscht, würde ich ebenfalls gerne Rhasspy eine Chance geben um die Sprachsteuerung ohne Online-Zwang und Einschränkungen zum Laufen zu bekommen.

Ich möchte mich entschuldigen, falls die folgenden Fragen weiter oben schon beantwortet wurde, es hat aber inzwischen doch schon so einige Posts hier.

Wie funktioniert Rhasspy mit diversen Standorten in einem Haus?
Ich würde gerne wirklich alle Räume mit einer Spracherkennung abdecken können, bin mir aber nicht sicher, ob das zuverlässig funktioniert.

Wenn ich also z.B. im Eingangsbereich und im Wohnzimmer Rhasspy am Laufen habe, ich irgendwo zwischendrin stehe und das Wakeword sage, erkennt Rhasspy automatisch, wo die beste Aufnahme ist?

Wie ist zudem generell eure Langzeiterfahrung betreffend Stabilität? Unabhängig von der Überwachung geht es mir beim Wechsel vor allem darum, dass ich ein System habe, welches ich einmalig aufsetzen kann und welches dann auch zuverlässig macht, was es soll.

jwerlsdf

@dert
hallo ich habe soweit alles eingefügt. Leider ohne Erfolg. Wenn ich snowboy mit dem Befehl Stehlampe aus sage, dann wird es im Rhasspy webif erkannt, aber ansonsten passiert nichts.
Habe im Skript bei Stehlampe den homematic-Pfad angepasst, ansonsten habe ich nichts im Skript verändert.
Wo könnte der Fehler liegen?
Außerdem werden bei mir die hermes/intents nicht angezeigt. Woran könnte das liegen?

DerT

@jwerlsdf
Hi,
kannst du mir kurz sagen auf welches Skript du dich beziehst? Hast du mehrere rhasspys oder nur einen?

Gruß
T

jwerlsdf

@dert
danke für deine Rückmeldung.
Ich habe bisher nur einen Rhasspy. Dieser läuft aber auf einem anderen Raspberry 4 als iobroker läuft. Die Verbindung mit dem iobroker steht (Adapter ist grün)
Ich beziehen mich auf das Skript, welches du auf Seite 315 gepostet hast.

Noch ein Hinweis:
@LichtAn hat auf Seite 290 ein Bild gepostet, bei dem darauf einen Ordner mit Intents mit den entsprechenden Einträgen zu sehen sind. Diese fehlen mir. Werden diese automatisch erstellt oder muss ich diese manuell anlegen?

OK. Es scheint, jetzt zu gehen. Musste im MQTT-Adapter folgendes ändern:

#hermes/intent/#,hermes/asr/startListening,hermes/nlu/intentNotRecognized,hermes/intent/#,hermes/asr/#,hermes/dialogueManager/#,hermes/nlu/#

Damit werden nun die intents angezeigt und ich kann nun die Befehle per Sprache absetzen. Schaue mir jetzt noch mal deinen code an. Ggf. habe ich noch ein paar Fragen dazu.

Eine andere Frage hätte ich noch: Wie kann ich die Sprachausgabe über Sonos API ausgeben? Hat da jemand eine Idee?

CarstenDerGroße

@dert
@dert

WoW dein Script finde ich klasse ich habe allerdings eine sache die ich anders machen würde und zwar die tts ausgaben. Statt über die api würde ich dies ebenfalls über mqtt zu erledigen um nicht zwei protokolle zu vermischen.

in etwa so:


function extractIntentData(message) {

    const parsedMessage = JSON.parse(message);

    let extractedJSON = {};

    extractedJSON.slots = {};

    extractedJSON.intentName = parsedMessage.intent.intentName;

    extractedJSON.siteId = parsedMessage.siteId;

	extractedJSON.Id = parsedMessage.SessionId;
 
    parsedMessage.slots.forEach(slot => {

        extractedJSON.slots[slot.slotName] = slot.value.value;

    });

    return extractedJSON;

}

 

//Damit kann jeder Rhasspy sprechen

function speakRhasspy(text, rhasspySiteId ,sid) {

    console.log(rhasspySiteId);
	
	let sendData = {
        sessionId: sid,
        siteId: site,
        text: msg
	
	};

	let jsonObj = JSON.stringify(sendData);
	
	if(sid != "0") {
	
		sendTo('mqtt.0', 'sendMessage2Client', {topic:"hermes/dialogueManager/endSession", message:jsonObj});	
    
	}
	else {
		
		sendTo('mqtt.0', 'sendMessage2Client', {topic:"hermes/tts/say", message:jsonObj});	
	
	}

}

lässt sich sicher auch eleganter lösen :) bin in JS noch nicht so gut.
Übrigens ist diese lösung aus dem FHEM modul abgekupfert, da dieses bereits schon weit entwickelt ist.

Zu 1. ich arbeite mit snowboy werde allerdings versuchen auf raven zu wechseln
Zu 2. ich nutze google Wavenet (shame on me doch wieder Cloud aber es hört sich gut an)
Zu 3. Da mein Produktives Rhasspy noch unter FHEM läuft habe ich meinen Logitechmediaserver über rhasspy angebunden und dies funktioniert recht gut ich weiß nur noch nicht wie ich das über iobroker abbilden werde da ich aktuell umsteiger bin (u.A wegen dem fehlenden multithreading in fhem das nervt echt :))

einen schönen abend gewünscht

Carsten

jwerlsdf

Hallo,
folgendes Szenario würde ich gerne umsetzen:
Wenn ich einen Sprachbefehl gebe, wird dies ja in iobroker in den intents abgebildet. Hat jemand ein blockly, der die intents nach diesem Befehl durchsucht und dann ein Datenpunkt schaltet? So wäre es ja prinzipiell möglich, jedes beliebige Skript zu schalten? Könnte mir jemand helfen?

joergeli

@jwerlsdf
Hi,
Ich hatte ganz am Anfang dieses Threads mal ein JavaScript vorgestellt, mit dem die Intents ausgewertet können:
https://forum.iobroker.net/topic/28411/rhasspy-offline-sprachsteuerung/8

Das war aber noch bevor Hermes in Rhasspy implementiert wurde, d.h. die MQTT-Variablen müssen angepasst werden.
Ist zwar kein blockly, aber evtl. hilft es Dir weiter?

jwerlsdf

@joergeli
danke für deine Rückmeldung. In der Zwischenzeit habe ich es noch mal mit dem Skript von @DerT probiert (315). Habe es damit nun hinbekommen. Ich schalte damit einen Datenpunkt, der wiederrum dann ein anderes Skript (Blockly) schaltet. Sind zwar längere Wege, aber für jemanden wie mich einfacher umzusetzen.

Jetzt hoffe noch, dass mir jemand beim bring-Adapter helfen könnte. Dort bekomme ich den Intent-befehl nicht in den Bring adapter geschrieben...

LichtAn

@jwerlsdf
@tobetobe

Das mit der Bring Liste werde ich mir die nächste Zeit mal austesten. Vielen Dank schonmal.

kuumaur

@carstendergroße
Hier mal ein Beispiel von mir:
(Ist nicht schön gelöst, aber funktioniert. JScript ist nicht meine Welt)
Vorraussetzung:

slots anlegen
Adapter Squeezeboxrpc installieren
ich verwende das Basis-Script von @DerT, glaube ich.

radiostation: function (json){
const objectName = json.slots.objectName;
const StateFriendly = json.slots.state;
const state = convertStateToBool(json.slots.state);
const roomName = json.slots.room;
const room = rooms[roomName];
if (typeof roomName == 'undefined') {
roomName = rhasspySites[json.siteId].room;
room = rooms[roomName];
console.warn(1) Object='${objectName}' | roomName='${roomName}' | room='${room}' | rhasspy='${rhasspySites[json.siteId].room}');
}
if (roomName == "küche") {
if (objectName == "ndr twei") {
speakRhasspy(ok, der Sender '${objectName}' ist bei '${roomName}' zu hören, json.siteId);
setState("squeezeboxrpc.0.Players.esprimomobilev6505.Power", 1);
setState("squeezeboxrpc.0.Players.esprimomobilev6505.cmdPlayFavorite", 1)
}
}
if (roomName == "büro") {
if (objectName == "sputnik") {
speakRhasspy(ok, der Sender '${objectName}' ist bei '${roomName}' zu hören, json.siteId);
setState("squeezeboxrpc.0.Players.pi1.Power", 1);
setState("squeezeboxrpc.0.Players.pi1.cmdPlayFavorite", 1)
}
}
---snip---
PS: Beim "pasten" sind einige Steuer- Klammer- und Anführungszeihen zeichen entfernt worden.

kuumaur

@carstendergroße said in Rhasspy Offline Sprachsteuerung:

function speakRhasspy(text, rhasspySiteId ,sid) {

Moin, was muss für die Funktion bei "sid" übergeben werden?
Danke und Gruß

CarstenDerGroße

@kuumaur das soll die sessionId darstellen 😅 bin etwas schreibfaul.

kuumaur

@carstendergroße
Ja, das habe ich mir auch schon gedacht. Mir ist nur nicht klar wo für diese ist. Bei mir funktioniert das Ganze leider nicht. Ich bekomme zwar keinen Fehler, aber es erfolgt auch keine Sprachausgabe. Wenn es funktioniert könnte ich mir den Webserver auf dem Satelliten sparen.

CarstenDerGroße

@kuumaur ich teste das selber nochmal bei mir wenn ich Zeit habe. Die sessionId ist notwendig um die aktuelle Session nach Sprachausgabe zu beenden soweit ich das verstanden habe

CarstenDerGroße

So ich habe den fehler gefunden :)

folgende funktion hab ich geändert:

function extractIntentData(message) {

    const parsedMessage = JSON.parse(message);

    let extractedJSON = {};

    extractedJSON.slots = {};

    extractedJSON.intentName = parsedMessage.intent.intentName;

    extractedJSON.siteId = parsedMessage.siteId;

	extractedJSON.Id = parsedMessage.sessionId;

    parsedMessage.slots.forEach(slot => {

        extractedJSON.slots[slot.slotName] = slot.value.value;

    });

    return extractedJSON;

}

Nach einer ausgeführten aktion wird folgendes aufgerufen:

speakRhasspy(`Gewünschter TTS text`,json.Id, json.siteId);

kuumaur

@carstendergroße said in Rhasspy Offline Sprachsteuerung:

function extractIntentData(message) {

mmmh,
bei mir klappt das noch nicht.
Das Script läuft zwar fehlerfrei durch, aber es findet keine Sprachausgabe statt.
javascript.0 (15225) script.js.common.RemoteControl_VoiceAssistant: sendTo(adapter=mqtt.0, cmd=sendMessage2Client, msg={"topic":"hermes/dialogueManager/endSession","message":"{"siteId":"pi2","msg":"Dieser Text sollte gesprochen werden!"}"})

// Speak over mqtt (Test)
function speakRhasspyMqtt(text, rhasspySiteId, sid) {
    if(debug_mode==true){console.log("speakRhasspyMqtt | rhasspySiteId=" + rhasspySiteId);}
	let sendData = {
        sessionId: sid,
        siteId: rhasspySiteId,
        msg: text
	};
	let jsonObj = JSON.stringify(sendData);
	if(sid != 0) {
		sendTo('mqtt.0', 'sendMessage2Client', {topic:"hermes/dialogueManager/endSession", message:jsonObj});	
	}
	else {
		sendTo('mqtt.0', 'sendMessage2Client', {topic:"hermes/tts/say", message:jsonObj});	
	}
}

@carstendergroße said in Rhasspy Offline Sprachsteuerung:

So ich habe den fehler gefunden :)

folgende funktion hab ich geändert:

function extractIntentData(message) {

    const parsedMessage = JSON.parse(message);

    let extractedJSON = {};

    extractedJSON.slots = {};

    extractedJSON.intentName = parsedMessage.intent.intentName;

    extractedJSON.siteId = parsedMessage.siteId;

	extractedJSON.Id = parsedMessage.sessionId;

    parsedMessage.slots.forEach(slot => {

        extractedJSON.slots[slot.slotName] = slot.value.value;

    });

    return extractedJSON;

}

Nach einer ausgeführten aktion wird folgendes aufgerufen:

speakRhasspy(`Gewünschter TTS text`,json.Id, json.siteId);

mmmh,
das klappt bei mir noch nicht. Irgendetwas mache ich falsch.
Das Script läuft sauber ohne Fehler durch.
Kannst Du mal einen Blick darüber werfen?
Danke.

javascript.0 (15225) script.js.common.RemoteControl_VoiceAssistant: sendTo(adapter=mqtt.0, cmd=sendMessage2Client, msg={"topic":"hermes/dialogueManager/endSession","message":"{"sessionId":"pi2","siteId":"pi2-jarvis_raspberry-pi-0047de6a-17bb-47ae-9a8e-1ee238b71077","msg":"Dieser Text wird gesprochen."}"})

// Speak over mqtt (Test)
function speakRhasspyMqtt(text, rhasspySiteId, sid) {
    if(debug_mode==true){console.log("speakRhasspyMqtt | rhasspySiteId=" + rhasspySiteId);}
	let sendData = {
        sessionId: sid,
        siteId: rhasspySiteId,
        msg: text
	};
	let jsonObj = JSON.stringify(sendData);
	if(sid != 0) {
		sendTo('mqtt.0', 'sendMessage2Client', {topic:"hermes/dialogueManager/endSession", message:jsonObj});	
	}
	else {
		sendTo('mqtt.0', 'sendMessage2Client', {topic:"hermes/tts/say", message:jsonObj});	
	}
}

CarstenDerGroße

@kuumaur

msg={"topic":"hermes/dialogueManager/endSession","message":"{"sessionId":"pi2","siteId":"pi2-jarvis_raspberry-pi-0047de6a-17bb-47ae-9a8e-1ee238b71077","msg":"Dieser Text wird gesprochen."}"})

Eigentlich müsste bei sessionId die vom Dialogmanager generierte ID stehen verstehe nur gerade nicht wieso das nicht der Fall ist

Community Forum

NEWS

Rhasspy Offline Sprachsteuerung

Support us

653

32.7k

82.4k

1.3m