Sprachsteuerung im Smart Home

OliverIO

Bei Alexa kann man sich alles nachträglich anhören

In der Alexa App unter
Mehr -> Alexa-Datenschutz -> Sprachverlauf

ticaki

Ich hätte vermutet das die Umfrage zu einer Alternative führen soll - Ich werde die Nutzung von US-Diensten in meinem Smarthome nicht weiter ausbauen. Dazu zählen auch die Raubkopierer - em ich meinte Chatbots. Ob die Mithören ist mir wurscht - das sie es könnten reicht schon.

Homoran

@ticaki sagte in Sprachsteuerung im Smart Home:

Ich hätte vermutet das die Umfrage zu einer Alternative führen soll

davon gehe ich aus.

Umso wichtiger ist es, die Realität von bestehenden Systemen zu kennen.

wie @asgothian schon schreibt, muss ja ein Sprachassistent alleine deswegen alles hören, um das wakeword, so undeutlich es auch gerade durch akustische Störungen o.ä. sein mag, zu erkennen.

Winni

@Homoran sagte in Sprachsteuerung im Smart Home:

wie @asgothian schon schreibt, muss ja ein Sprachassistent alleine deswegen alles hören, um das wakeword, so undeutlich es auch gerade durch akustische Störungen o.ä. sein mag, zu erkennen.

Die Wakeword-Erkennung läuft lokal auf dem Gerät, nicht in der Cloud.
Und bei diesem Link
https://www.techbook.de/smart-home/alexa-sprachaufnahme-cloud
geht es doch nicht um die normale Echo Funktion sondern um Echo+. Das muss man nicht machen und das soll auch extra kosten, wenn es dann so kommt.

Negalein

@Homoran sagte in Sprachsteuerung im Smart Home:

alles hören, um das wakeword

dies geschieht aber nur lokal

Samson71

@Negalein sagte in Sprachsteuerung im Smart Home:

hast du da eine Quelle?
alles mir bekannte wurde von Usern (durch Paketmitschnitte, usw.) als Urban Legends entlarvt.

Das Micro ist praktisch immer offen, weil die Dosen (zwangsläufig) immer zuhören müssen. Sie würden das Triggerwort sonst wohl auch nicht mitbekommen. An "lokal" glaube ich dabei ehrlich gesagt nicht. Und nein, der Leuchtring ist dabei nicht aktiv.

Ich war doch stark überrascht, was sich alles so unter

@OliverIO sagte in Sprachsteuerung im Smart Home:

In der Alexa App unter
Mehr -> Alexa-Datenschutz -> Sprachverlauf

anfindet.

Im Sprachverlauf finden sich immer wieder Einträge die sinngemäß lauten "Audio war nicht für dieses Gerät gedacht". Ergo wurde aufgezeichnet und dann verworfen (wirklich?) weil erst im Nachgang festgestellt wurde, dass es eben kein gegebener Sprachbefehl war. Ebenso kommt es (selten) vor, dass man plötzlich eine "Antwort" bekommt oder einen Satz wie "ich weiß nicht wie ich das machen soll", ohne dass man einen Sprachbefehl gegeben hat.

Mehr Beweis für ständiges passives Zuhören braucht es (für mich) jedenfalls nicht. Egal was da sonst gerne behauptet wird. Ich hatte irgendwo auch mal einen Weg gesehen, diese Sprachaufzeichnungen alle per Skript regelmäßig (automatisch) zu löschen.

Nicht falsch verstehen, ich nutze das trotzdem, aber man sollte sich das schon bewusst machen und von daher habe ich zumindest Verständnis, wenn hier jemand eine ablehnende Haltung dazu hat.

ticaki

@Homoran sagte in Sprachsteuerung im Smart Home:

wie @asgothian schon schreibt, muss ja ein Sprachassistent alleine deswegen alles hören, um das wakeword, so undeutlich es auch gerade durch akustische Störungen o.ä. sein mag, zu erkennen.

Nur sollte das bei einer Alternative die erstmal keine cloud oder chatbot in der Basisversion nutzt unbedenklich sein. Dachte hier kämen z.B. vorschläge wie man mit einem esp nem lautsprecher und microphone den Ein- Ausgabekrempel lösen könnte :)

Jey Cee

@ticaki sagte in Sprachsteuerung im Smart Home:

Ich hätte vermutet das die Umfrage zu einer Alternative führen soll

Genau so ist es.

@ticaki sagte in Sprachsteuerung im Smart Home:

Dachte hier kämen z.B. vorschläge wie man mit einem esp nem lautsprecher und microphone den Ein- Ausgabekrempel lösen könnte :)

Gibt es zu Hauf auf Youtube. Haben alle das gleiche Problem, man muss erst mal was Basteln, das dann meist wenn Überhaupt nur gerade so brauchbar ist.
Hinter nem ESP muss dann wieder ein Server laufen der das Umwandelt und weiter verarbeitet. Aufwändig, Fehleranfällig und der Server muss sehr Potent sein. Das Audio auf dem Server zu Transskribieren habe ich als Fallback bzw. war mein erster Ansatz, das dauert schon ewig wenn nur die Spracheingabe von einem Gerät umgewandelt werden soll.

Deswegen habe ich auch auf den Ansatz gewechselt einfach Android Tablets zu benutzen.

Vorteile:

Geht schnell
die Umgebung ist besser Kontrollierbar
die Hardware ist bei den besseren Tablets ausreichend stark
hängen bei vielen eh schon an der Wand
bessere Ausnutzung schon vorhandener Ressourcen
günstig

Nachteile:

Qualität hängt vom verwendeten Tablet ab bzw. den Verbauten Mikrofonen
erhöht den Stromverbrauch deutlich
andere Anwendungen auf dem Tablet nur noch bedingt möglich, wegen der erhöhten System last und weil die Mikrofone ständig belegt sind

Homoran

@Jey-Cee sagte in Sprachsteuerung im Smart Home:

Haben alle das gleiche Problem, man muss erst mal was Basteln, das dann meist wenn Überhaupt nur gerade so brauchbar ist

Das erinnert mich an die Nokia Handys (nicht Smartphones!) vor 30 Jahren, die eine Sprachwahl anboten.
Dazu wurde ein Audiofragment angelegt und nachher verglichen.
Hatte man das im ruhigen Kämmerlein angelegt, funktionierte es auf der Autobahn mit der Freisprechanlage nicht.....

Und genau das ist auch das Problem bei drn heutigen Büchsen.
Mir kann niemand erzählen, dass diese das initiale Training diverser Stimmen, Dialekte, Aussprachen und das Ausfiltern sämtlicher Nebengeräusche zum sicheren Erkennen des Wakeup Words rein lokal durchführen können.
Das wird in der cloud durchgeführt. Dieses Training sei laut Anazon auch der Grund für diese zusätzlichen Mitschnitte (gewesen?).

OliverIO

Die Zeitschrift CT hat vor einiger Zeit mal einen Test durchgeführt und folgt es festgestellt:

bevor das Schlüsselwort nicht festgestellt wurde, findet kein relevanter Netzwerk Verkehr statt
wenn es dann erkannt wurde, werden die Audioschnipsel an den Server übertragen und dort auch gespeichert (vgl die Seite in der Alexa App)
laut AGB Darf Amazon sich diese Schnipsel auch anhören. Oft wird das durch externe Unternehmen gemacht. Auch gab es in der Presse immer wieder Berichte, über Lücken.
problematisch ist, Amazon könnte dieses Verhalten jederzeit ändern.

Jey Cee

@Homoran sagte in Sprachsteuerung im Smart Home:

Mir kann niemand erzählen, dass diese das initiale Training diverser Stimmen u d ausschalten sämtlicher Nebengeräusche zum sicheren Erkennen des Wakeup Words rein lokal durchführen können.

Ist definitiv möglich, den genau das macht die APP und das funktioniert auch bei normaler TV Lautstärke noch so halbwegs gut. Allerdings hab ich es bisher nur auf relativ kurze Distanz von ca. 1,5-2m getestet und das verwendete Tablet hat bessere Mikrofone weil es genau für diesen Zweck (nur halt mit Google) gedacht war.

Jey Cee

@all ich finde es Übrigens Schade das hier sehr wenig Konstruktives kommt und Hauptsächlich Bedenken.
Das ist Typisch Deutsch und der Grund warum wir von Firmen aus anderen Ländern bei solchen Techniken abhängig sind.

Homoran

@Jey-Cee sagte in Sprachsteuerung im Smart Home:

@all ich finde es Übrigens Schade das hier sehr wenig Konstruktives kommt und Hauptsächlich Bedenken.
Das ist Typisch Deutsch und der Grund warum wir von Firmen aus anderen Ländern bei solchen Techniken abhängig sind.

schade dass du das so siehst, und nicht das Interesse und die Wünsche, die es zu berücksichtigen gebe.

Jey Cee

@Homoran doch die sehe ich, aber es wird halt nur über Bedenken und was war diskutiert. Nicht ein Wort darüber wie könne wir das besser machen.

Homoran

@Jey-Cee sagte in Sprachsteuerung im Smart Home:

@Homoran doch die sehe ich, aber es wird halt nur über Bedenken und was war diskutiert. Nicht ein Wort darüber wie könne wir das besser machen.

äääh??

Die Bedenken beziehen sich auf die existierenden Systeme!

Das impliziert auch was es besser zu machen gilt.

das WIE wäre deine Aufgabe.
Dazu fehlt hier sicherlich den Meisten das KnowHow.

ticaki

Ich hab keine Bedenken geäußert :) also ist das esp32 streaming zeugs keine Lösung - wenn ich dich richtig verstehe?

EDIT: Ich dachte eine normale CPU würde die Spracherkennung mit links erledigen (Picovoice hab ich mir da mal kurz angesehen)

Winni

Ich würde mich sehr über eine lokale Sprachsteuerung freuen. Wichtig wäre mir Geräte zu schalten, Wecker und Timer stellen und Werte abfragen zu können (in der Reihenfolge). Unterhalten mit iobroker wäre nett, muss aber nicht sein. Wenn das funktionieren sollte, würde ich auf Alexa gerne Verzichten. Der Grund bei mir sind aber nicht Datenschutzbedenken, sondern Bedenken wegen des Verhaltens von Jeff Bezos, aber das nur am Rande.

Asgothian

@OliverIO sagte in Sprachsteuerung im Smart Home:

Die Zeitschrift CT hat vor einiger Zeit mal einen Test durchgeführt und folgt es festgestellt:

bevor das Schlüsselwort nicht festgestellt wurde, findet kein relevanter Netzwerk Verkehr statt

Dieses habe ich auch verfolgt. In dem Zusammenhang wurde auch untersucht 'wie genau' das Schlüsselwort gesprochen werden musste, sowie was da wirklich erkannt wird. In die Richtung ging der 3. Link. Es ist (leider) eine Tatsache, das da kein Ohr das Wort hört, sondern eine irgendwie gearteter Mustervergleich. Und da Sprachmuster nicht wirklich klein sind (und ein direkter Vergleich wegen Störgeräuschen oft schwierig ist) werden verschiedene Algorithmen genutzt um die Schlüsselwörter auf signifikante Komponenten zusammen zu stauchen.

Leider gilt nur
Wird das Schlüsselwort halbwegs sauber gesprochen => Die signifikanten Komponenten sind vorhanden.

Es gilt explizit nicht
Sind die signifikanten Komponenten vorhanden => es wurde sicher das Schlüsselwort gesprochen.

Das passt auch zu

@Samson71 sagte in Sprachsteuerung im Smart Home:

Ebenso kommt es (selten) vor, dass man plötzlich eine "Antwort" bekommt oder einen Satz wie "ich weiß nicht wie ich das machen soll", ohne dass man einen Sprachbefehl gegeben hat.

Des weiteren wurde dabei explizit nicht verifiziert, in wie weit nach Erkennung des Schlüsselwortes ausschliesslich aufgenommene Texte übermittelt wurden die auf das Schlüsselwort folgen - sprich - auch wenn das Gerät erst nach Erkennen des Schlüsselwortes kommuniziert kann es Aufnahmen übermitteln die damit wenig zu tun haben - z.Bsp. near misses, sprich Sprachfragmente wo es sich nicht sicher war ob das jetzt ein Schlüsselwort war oder nicht (um ein nicht inherent bösartiges Beispiel zu nennen - der Fantasie sind da aber kaum Grenzen gesetzt)

A.

Nachtrag:

@Winni sagte in Sprachsteuerung im Smart Home:

Und bei diesem Link
https://www.techbook.de/smart-home/alexa-sprachaufnahme-cloud
geht es doch nicht um die normale Echo Funktion sondern um Echo+. Das muss man nicht machen und das soll auch extra kosten, wenn es dann so kommt.

Ja, dieser Link geht auf eine Sonder-Funktion. Interessant ist aber der Teil des Artikels wo explizit steht 'lokale Verarbeitung hat es in Deutschland nie gegeben'. Das gilt sowohl für Echo+, als auch für alles andere. Sprich, die Schlussfolgerung

Der Assistent wird benutzt => Alles was nach einem erkannten Schlüsselwort gesagt wurde wird ins Netz geschickt ist korrekt.

Nachtrag 2:
Nur damit hier keiner glaubt ich bin anti Alexa - Jeder ist eingeladen mal auf einem iPhone ohne Internet-Verbindung von Siri unterstützung zu verlangen. Einiges geht. Vieles nicht.

A.
Edit: Typo-Ex. Wer noch welche findet darf sie behalten.

Jey Cee

@Homoran sagte in Sprachsteuerung im Smart Home:

Dazu fehlt hier sicherlich den Meisten das KnowHow.

Nein, den das ist keine Technische Frage. Sondern eine des Vertrauens und der Transparenz.
Das mit der Transparenz ist aber so ein Thema. Die Transparenz stößt einfach da an Grenzen, wo entweder Firmengeheimnisse veröffentlicht werden müssten, wo die technische Expertise der Leute, die diese Transparenz gerne hätten, nicht ausreicht, um sie überhaupt bewerten zu können und der Aufwand diese her zu stellen größer ist als der Nutzen.

Also braucht es eine Lösung die Praktisch machbar. Da das keine (rein) Technische Frage ist kann sich jeder dazu Gedanken machen wie man so etwas lösen kann und Vorschläge machen.

@ticaki sagte in Sprachsteuerung im Smart Home:

Ich hab keine Bedenken geäußert :)

Ich, weis das hat sich ja auch nicht auf deinen Beitrag bezogen.

@ticaki sagte in Sprachsteuerung im Smart Home:

EDIT: Ich dachte eine normale CPU würde die Spracherkennung mit links erledigen (Picovoice hab ich mir da mal kurz angesehen)

Ja das dachte ich auch mal. Aktuell verwende ich Spracherkennung an meinem Haupt-PC und meinem Laptop. Auf dem Haupt PC kann ich auf eine starke GPU zurück greifen, damit geht das in echt Zeit. Auf dem Laptop hab ich den Luxus nicht, aber der Prozessor ist Stark, da ist die Verarbeitungszeit auch immer noch gut.
Auf einem Pi5 dauert es dann schon so lange das es für Sprachbefehle nur noch bedingt nutzbar ist.
Die Android Geräte mit denen ich das getestet habe, scheinen noch mal etwas mehr Leistung zu haben oder sind besser dafür geeignet als ein Pi.
Man muss auch bedenken auf einem Server wird mehr als eine Aufgabe gleichzeitig erledigt, das heist es steht nicht immer 100% der Leistung für Spracherkennung zur Verfügung. Da ist ein dediziertes Gerät klar im Vorteil weil es sich auf diese eine Aufgabe Konzentrieren kann.

Am ende auch nicht nur das Umwandeln von Sprache in Text die Herausforderung für ein Flüssiges Erlebnis. Die Befehle müssen auch Ausgewertet und verarbeitet werden. Jeder Schritt braucht einen Gewissen Teil an Verarbeitungszeit. Alleine in diese Kette hab ich einiges an Zeit gesteckt um diese so Kurz wie möglich zu halten.

OliverIO

@Jey-Cee

Evtl helfen da dann zusätzliche NPUs um diese rechenpower auch auf kleinere Geräte zu bringen bzw. Werden die Fähigkeiten direkt eingebaut

Esp32 p4 uns S3 oder
Raspberry Pi AI Kit Bzw AI Hat+

Ich denke auch, die eigentliche Spracherkennung ist selbst auf kleinen CPU mittlerweile gut machbar. Die lokale Interpretation dessen, was gesagt wird, ist dann wieder die Herausforderung. Mit externer KI machbar, mit lokaler KI zu erträglichen Kosten (Strom) dauert noch.

Community Forum

NEWS

Sprachsteuerung im Smart Home

Vorteile:

Nachteile:

Vorteile:

Nachteile:

Vorteile:

Nachteile:

Support us

418

32.8k

82.9k

1.3m