Sprachsteuerung lehrt die gesamte Haushaltselektronik sprechen

Januar 15, 2021 in Alle, EIT 2020: The Intelligent Revolution von Wang Jing

(Bildquelle: ZinetroN/Shutterstock.com)

Haben Sie sich schon einmal eine solche Szene vorgestellt: Sie kommen nach Hause, sagen dem Fernseher, was Sie sehen wollen, und der Fernseher schaltet sich automatisch ein und wählt den entsprechenden Sender aus? Oder Sie sagen dem Herd, dass er Ihnen das Essen auf niedriger Stufe kochen soll, und Ihr Abendessen wird automatisch fertiggekocht? Schon heute können Haushaltsgeräte vielerlei Funktionen ausführen, und mit Hilfe von Sprachsteuerung müssen Sie nach einem anstrengenden Tag nicht mehr selbst agieren, sondern können vom Sofa aus jedem Haushaltsgerät Befehle geben. Die Geräte verarbeiten den Sprachbefehl und führen die gewünschte Aktion aus.

Tatsächlich ist die Fähigkeit von Haushaltsgeräten, zu sprechen und zu hören, ein Produkt des Internets der Dinge. Die Architektur des Internets der Dinge ist komplex und betrifft viele Bereiche. Immer mehr Unternehmen entscheiden sich dafür, ihre IoT-Gerätesysteme in der Cloud zu hosten, da die Cloud-Architektur sicher und praktisch ist, auf Modellen der künstlichen Intelligenz (z.B. der Verarbeitung von natürlicher Sprache) basiert und die Prozesse des Trainings und der Bereitstellung mit einem einfachen Klick erledigt werden und so leistungsfähig sind, dass Unternehmen viel Personal und materielle Ressourcen einsparen. Das cloudbasierte Internet der Dinge besteht üblicherweise aus einem Sensor, der im Haushalt platziert wird, über WLAN mit dem Netzwerk verbunden ist und dazu dient, Daten zu empfangen und an eine cloudbasierte Datenbank zur Analyse und Verarbeitung in einer Cloud-Umgebung weiterzuleiten.

Mit der Entwicklung von künstlicher Intelligenz und dem Internet der Dinge kann die Mensch-Computer-Interaktion den Anwendern eine zunehmend gute Erfahrung bieten. Anwendungen der Sprachsteuerungstechnologie sind weit verbreitet und stellen aktuell ein beliebtes Forschungsthema dar. Neu und aufregend ist der Einsatz von Haushaltsgeräten, die auf die traditionelle Fernbedienung verzichten und über mündliche Befehle verschiedene Funktionen ausführen. Die Sprachsteuerung von Haushaltsgeräten dreht sich um künstliche Intelligenz, maschinelles Lernen, semantische Erkennung, Internet der Dinge (IoT) und Cloud-Computing.

Die Cloud-Architektur bildet den Rahmen für diesen Artikel, um die Sprachsteuerung und Sprachverständnis von Haushaltsgeräten vorzustellen. Der Artikel wird sich um die folgenden Punkte drehen:

Azure-basierte Sprachsteuerung und Spracherkennung

Das Sprachsteuerungssystem umfasst Spracherkennung, Verstehen natürlicher Sprache, Dialogmanagement, Generierung natürlicher Sprache und Sprachsynthese.

Das cloudbasierte Internet der Dinge

Spracherkennung ist die Umwandlung von Sprache in Text. TTS (text to speech) der Azure-Plattform verwendet das Universal-language-Modell, welches auf Daten trainiert wird, die bereits von Microsoft zur Verfügung stehen und in der Cloud bereitgestellt werden. Es können auch benutzerdefinierte Sprachmodelle erschaffen und trainiert werden, wobei Wörter entsprechend den Erfordernissen ausgewählt und den Trainingsdaten hinzugefügt werden.
Natürliche Sprachanalyse/natürliche Sprachverarbeitung sind ein Teil des maschinellen Lernens, es wird ein Modell entworfen, und dieses durchläuft ein Training.
Das Dialogmanagement hat im Wesentlichen drei Aufgaben:
- Vorhersage der Benutzerabsicht: Analyse auf Basis der Dialoginhalte, Vorhersage des Modells des maschinellen Lernens, Festlegen des nächsten Handlungsschritts.
- Als Schnittstelle Interaktion mit dem Backend/Aufgabenmodell: Als Schnittstelle für Anwendungsprozesse Interaktion mit dem Server oder dem Modell für Anfragen, Abrufen von Feedbackergebnissen, Generieren von Textergebnissen.
- Bereitstellung von Erwartungswerten für Ergebnisse der semantischen Analyse

Gemäß der Frage des Benutzers wird durch eine Reihe von semantischen Analysen eine Antwort gegeben, die die Erwartungen des Benutzers erfüllt.

Die Generierung von Sprachantworten erfolgt über die Modellanalyse der Sprachbefehle des Benutzers und die Ausgabe einer Textantwort.
Die Hauptaufgabe der Sprachsynthesetechnologie ist die Umwandlung von Text in die Anforderungen an eine menschliche Sprache. Die grundlegende Azure-Cloud-basierte Sprachsynthese nutzt das Speech SDK oder die REST-API, um unter Verwendung von Standardstimmen (detaillierte Beschreibungen siehe unten), neuronalen oder benutzerdefinierten Stimmen Text in Sprache umzuwandeln.

Bei Haushaltsgeräten wird der Konversationsmodus emotional weniger anspruchsvoll sein, da der Benutzer vorwiegend Funktionsanfragen sendet, z.B. den Strom einschalten, Abfrage der Temperatur oder der Luftfeuchtigkeit usw.

Cloudbasierte Sprachsteuerungstechnologie als grundlegender Lösungsschritt

Dialogmodell: Das Dialogmodell ist der Kern der Mensch-Computer-Sprachinteraktion, um den sich alle Modelle drehen. Sobald der Benutzer einen Sprachbefehl erteilt, schaltet das System in den Dialogmodus. Unter Nutzung der UWP-Anwendungsplattform auf Azure entsteht eine Schnittstelle zur Überwachung des Erfolgs menschlicher Sprachauslöser (z.B. des Dialogeinstiegs durch: "Hallo, Cloud!").
Diktiermodell: Der Benutzer sagt etwas Längeres und wartet dann auf das Ergebnis der Spracherkennung. Nach Begrüßung durch "Hallo, Cloud!" gibt der Benutzer den Befehl aus (sagt, was er der Maschine sagen möchte), woraufhin die Sprache an das System zur semantischen Analyse (Azure LUIS) und der Inhalt an das System zur semantischen Analyse übergeben werden. Der Echtzeit-Sprach-zu-Text-Dienst auf Azure verwendet das initialisierte Modell Universal Language und wird über REST API/Speech Software Development Kit (SDK) vollzogen
Interaktionsmodell: Beim Interaktionsmodell, bei dem der Benutzer eine kurze Anfrage stellt und von der Anwendung eine Antwort erwartet, geht es vor allem um die Einbettung von Spracherkennungs- und Text-zu-Sprache-Umwandlungs-Prozessen in die Anwendung. In dem Beispiel in diesem Beitrag spiegelt sich das Interaktionsmodell des cloudbasierten Azure-Sprachsteuerungssystems in der Anwendung Universal Windows Platform (UWP) wider, die mit dem Benutzer interagiert. Auf UWP wird eine einfache Oberfläche entwickelt, die der Benutzer bedienen kann oder die Entwickler zum Testen verwenden können.

Wichtige technische Erläuterungen

Universal Windows Platform（UWP）

Mit Windows als universelle Anwendungsplattform kann die gleiche API auf dem Computer, auf dem Handy oder auf anderen Windows-10-Geräten verwendet werden. Mit anderen Worten, der gleiche Code kann auf verschiedenen Endgeräten laufen, ohne dass für verschiedene Plattformen unterschiedliche Codes geschrieben werden müssen.

Spracherkennung REST API & SDK für Cognitive Service

Die Spracherkennung als Beispiel: Die REST-API muss vorab einen Schlüssel erhalten, dann eine HTTP-Anfrage an den Server senden, und nach der Authentifizierung gibt der Server die konvertierten Audiofrequenzen an den lokalen Bereich zurück.

Das folgende Diagramm veranschaulicht REST-APIS in der Cloud:

Bildquelle：https://gunnarpeipman.com/wp-content/uploads/2016/04/rest-api-adapter.png

Hier wird der Rest-Client in der Applikation (Anwendung) angewendet, und darin wird ein Beispiel eines Rest-Clients erstellt, danach werden in der Applikation einige Methoden aufgerufen. Wenn die Rest-Client-Methode aufgerufen wird, wandelt die Methode die Eingabe in eine http-Anfrage um und sendet die Anfrage an die Rest-Api. Die von dem Endpunkt kommende Antwort muss eine http-Antwort sein, die vom Rest-Client in einen von der Applikation erkennbaren Typ umgewandelt und dann zur Applikation zurückgegeben wird.

Da wir die Details des Rest-Clients in unserer Anwendung nicht preisgeben wollen, können wir einen Adapter hinzufügen, um mit dem externen Dienst zu kommunizieren. Der Adapter empfängt Paramater, die von der Applikation (Anwendung) bereits kategorisiert sind, und die Rückgabewerte sind ebenfalls Parameter, die von der Applikation bereits kategorisiert sind.

SDK ist eine aufrufbare Bibliothek, die Python, C#, C++, Java, JavaScript und Objective-C/Swift unterstützt.

In der offiziellen Literatur heißt es eindeutig:

“Als Alternative zu Speech SDK ermöglicht der Sprachdienst die Umwandlung von Sprache in Text über eine REST API. Jeder abfragbare Endknoten ist mit einem bestimmten Bereich verbunden.Die Anwendung benötigt den Leseschlüssel des verwendeten Endknotens.Die REST-API ist sehr limitiert und sollte nur in Fällen verwendet werden, in denen das Speech SDK nicht verfügbar ist.”

Language Understanding Intelligent Service (LUIS)

LUIS von Azure ist ein cloudbasierter Dialog-KI-Dienst, der Maschinen in die Lage versetzt, menschliche Sprache zu verstehen.

Die Betriebsweise kann kurz zusammengefasst werden: Der Client stellt über die Anwendung direkt eine Sprachanfrage an LUIS. In LUIS wird durch die Funktion Verarbeitung natürlicher Sprache der Befehl in das JSON-Format umgewandelt, und die Antwort wird nach Analyse ebenfalls im JSON-Format zurückgesendet. Die LUIS-Plattform bietet dem Benutzer den Dienst von Modelltrainings, und die Modelle verfügen über eine “kontinuierliche Trainingsfunktion”. Durch die Verwendung des Modells zur Beantwortung von Kundenanfragen wird das Modell ständig und automatisch korrigiert, um seine Genauigkeit zu verbessern.

Bildquelle: https://docs.microsoft.com/zh-cn/azure/cognitive-services/luis/what-is-luis

Die Verarbeitung natürlicher Sprache ist immer von nachfolgenden Punkten gekennzeichnet:

(Beispiel: Der Benutzer sendet an das Feuchtemesssystem den Befehl "Feuchtigkeit messen").

Absicht (Verb) - “messen" ist ein Verb, das LUIS-Modell akzeptiert maximal 80 Absichts-Wörter.
Abgeschlossene Sprachinhalte - Abgeschlossene Befehle des Kunden, das LUIS-Modell akzeptiert Sprachanforderungen mit maximal 500 Zeichen.
Entität (Substantiv) - Feuchtigkeit ist ein Substantiv. Das LUIS-Modell akzeptiert maximal 30 Substantive.
Der Benutzer kann nach seinen eigenen Bedürfnissen für LUIS besondere Merkmale definieren, das bedeutet, wenn Ihr Modell Schwierigkeiten hat, ein Wort oder mehrere Wörter zu erkennen, kann es automatisch zu den Daten für ein erneutes Training hinzugefügt werden.

Raspberry Pi 3 mit Windows 10 IoT Core-Version

Der Raspberry Pi ist ein Entwicklerboard, das mit unterschiedlichen Arten von Sensoren verbunden werden kann. Der Raspberry Pi kann als Web-Server verwendet werden, der verschiedene interpretierte Befehle empfängt und elektrische Signale sendet, um die im Smart Home installierten Haushaltsgeräte zu steuern.

C. Wie die Sprachsteuerungstechnologie in Haushaltsgeräten angewendet werden kann

Die Sprachsteuerung macht Ihr Zuhause smart und automatisiert Haushaltsgeräte. Wir können es als Verbesserung der Lebensqualität der Bewohner durch die Einführung von Technologie definieren, indem verschiedene Dienste wie Gesundheit, Multimedia, Unterhaltung und energiebezogene Anwendungen angeboten werden.

Anwendungsbeispiel: Smart-Hygrometer --- Einsatz in der Cloud

Bildquelle: https://www.iotnewsportal.com/iot-images/1512640413.png

1. Core-Technologie

Die Anwendung Universal Windows Platform (UWP), die auf dem Raspberry Pi 3 läuft, verwendet Spracherkennungs-API und Sensoren, um mit dem Benutzer zu interagieren, und LUIS führt eine semantische Analyse durch. Die Fragen des Benutzers werden über den Raspberry pi 3 weitergeleitet, und schließlich wird über die Spracherkennungs-APIs-Technologie des Cognitive Service eine Antwort ausgegeben.

Funktionen

Speichern von Daten, die von Sensoren erfasst und in der Cloud gespeichert werden.
Sprache-zu-Text- und Text-zu-Sprache-API zur Erkennung von Benutzerfragen und Bereitstellung von Antworten per Sprache.
LUIS-Spracherkennung, semantische Analyse und Vorhersage von Antworten durch vortrainierte Modelle, um präzise auf Kundenanweisungen zu reagieren.
Über den Raspberry Pi 3 eingehende Sprache und die Spracherkennungs-API von Cognitive Services ermöglichen es den Haushaltsgeräten, vom Benutzer gestellte Fragen zu beantworten.

Lösung

Weitere Informationen unter: https://microsoft.github.io/techcasestudies/iot/2017/06/02/Iomote.html

Daten in die Cloud: Der Prozess der Datenübertragung von den Sensoren zur Cloud-Datenbank ist bereits mit einer guten Architektur möglich, die es Kunden ermöglicht, verschiedene Arten von Datenbanken für unterschiedliche Anforderungen direkt zu nutzen.

Führen von Sprachdialogen: die UWP-Anwendung: Wenn ein Benutzer zum Beispiel die Luftfeuchtigkeit in seiner Wohnung wissen möchte: "Hey, Cloud!" à "What is the humidity in the room now?" Die Textausgabe erfolgt über die UWP-Plattform. Die UWP-Anwendung sollte auf dem Raspberry Pi 3 installiert sein und laufen. Die Anwendung wird in der Lage sein, mit allen Sensoren und Aktoren zu kommunizieren, und wenn das System ausgelöst wird, wird die Frage zur semantischen Analyse an LUIS übergeben.

Fragenanalyse, Anbindung an LUIS: LUIS wird verwendet, um die vom Raspberry Pi 3 empfangenen Befehle zu verstehen. Nach dem Training des Modells ist die Anwendung in der Lage, Absichten zu erkennen: Messe die Feuchtigkeit im Zimmer. Danach wird die LUIS-API in die UWP-Anwendung eingefügt. Nachdem der Benutzer den Befehl "Hey, Cloud!" gegeben hat, werden alle Inhalte über die API zur Analyse an LUIS gesendet. LUIS wird innerhalb der UWP aufgerufen, um die Eingabe zu empfangen und die Absicht zu analysieren. Basierend auf dem Vertrauensniveau der vorhergesagten Absicht erhält der Benutzer die richtige Antwort, und der Befehl wird an den IoT-Hub gesendet, um die Temperatur des Sensors zu erhalten.

Entwicklung von Web-Anwendungen: Entwicklung einer Web-Anwendung für die Geräteverwaltung. Die Anwendung kann alle mit dem IoT-Hub verbundenen Sensoren anzeigen und erleichtert so die Verwaltung der Geräte, indem sie Funktionen wie Neustarts, Firmware-Updates usw. ermöglicht.

Mensch-Computer-Interaktion: Die UWP-Anwendung interagiert mit der Web-Anwendung und gibt dem Kunden eine Antwort. Die Web-Anwendung ist verantwortlich für die Übermittlung von Befehlen an die angegebenen Sensoren, das Abrufen der aktuellen Raumluftfeuchte von bestimmten Sensoren, die Beantwortung von Benutzerfragen und schließlich die Mitteilung des aktuellen Raumfeuchtewertes an den Benutzer über die “Text-zu-Sprache”-API.

Zusammenfassung

Die Sprachinteraktion bietet den Benutzern eine neue Möglichkeit, ihr Zuhause zu steuern, indem Haushaltsgeräte sprechen und zuhören können. Gleichzeitig darf man die Schwierigkeiten, mit denen die Spracherkennung heute konfrontiert ist, nicht ignorieren. Dies umfasst vor allem folgende Punkte:

Identifizierung von chinesischen Dialekten/Identifizierung von englischen Akzenten in verschiedenen Ländern.
Vorhersagegenauigkeit des Modells:Um eine Spracherkennung zu erreichen, die den Resultaten des menschlichen Gehirns nahekommt, ist es notwendig, Wissen aus den Bereichen Linguistik, Psychologie und Physiologie zu kombinieren, um eine Analyse von Emotionen zu erreichen, die der eines Menschen nahekommt. Außerdem kann das Vorhersagemodell keine hundertprozentige Genauigkeit erreichen. Es wird immer wieder neue Befehle und neue Wörter geben. Daher ist es besonders wichtig, dass die Modelle kontinuierlich weitertrainiert werden.
Eliminieren von Störgeräuschen: Dies ermöglicht es dem Sprachsteuerungssystem, die Stimme des Benutzers zu lokalisieren, mit dem es interagiert, nicht aber andere relativ laute Störgeräusche.

Die größte Herausforderung bei dem Versuch, Maschinen dazu zu bringen, wie Menschen zu denken, ist meiner Ansicht nach die Kombination von maschinellem Lernen/Künstliche-Intelligenz-Technologie und Medizin (Physiologie und Psychologie), da es heute nur sehr wenige Wissenschaftler im Bereich der künstlichen Intelligenz gibt, die sich mit Medizin auskennen. Der Mensch-Computer-Dialog für Haushaltsgeräte kann den Arbeitsaufwand des Benutzers erheblich reduzieren. Wenn die Maschine Emotionen entwickelt hat, kann sie Gespräche führen, so dass die Maschine wie ein Freund Fragen beantworten kann und durch Smalltalk während der Beantwortung von Fragen zum Spaß am Leben beiträgt. Außerdem kann die Maschine Daten wie die Temperatur extrem präzise steuern, was für den Menschen unmöglich ist.

Zusammenfassend lässt sich sagen, dass die auf Haushaltsgeräte angewandte Sprachsteuerungstechnologie ein sehr vielversprechendes Projekt ist, und in Zukunft werden sprechende Haushaltsgeräte in allen Haushalten zu finden sein. Für die Zukunft hoffe ich, dass viele Wissenschaftler in diesem Bereich weiterforschen und kontinuierlich Innovationen hervorbringen werden, um dieses Ziel bald Wirklichkeit werden zu lassen.

« Zurück

Wang Jing ist Algorithmus-Ingenieurin im Bereich des maschinellen Lernens und arbeitet derzeit im Bereich der Fahrzeug-Prüfung. Sie schreibt leidenschaftlich gerne Fachartikel. Mit ihren Artikeln möchte sie das Interesse der Leser an künstlicher Intelligenz wecken und mehr Fachleute inspirieren, sich der Kombination von KI mit Cloud-Technologie und Big Data zu widmen, um das Leben sicher und bequem zu machen.

Tags: Cloud-Computing, Internet der Dinge, künstliche Intelligenz, LUIS, Smart Home Appliances, Sprachsynthese, Verarbeitung natürlicher Sprache, Azure, Cloud-Architektur, IoT, Kognitive Dienste, maschinelles Lernen, REST API, Sprachsteuerung, Universal Windows Plattform (UWP)

Mouser German Blog

Mouser Electronics, Inc german language blogs

Azure-basierte Sprachsteuerung und Spracherkennung

Das cloudbasierte Internet der Dinge

Cloudbasierte Sprachsteuerungstechnologie als grundlegender Lösungsschritt

Wichtige technische Erläuterungen

Universal Windows Platform（UWP）

Spracherkennung REST API & SDK für Cognitive Service

Raspberry Pi 3 mit Windows 10 IoT Core-Version

C. Wie die Sprachsteuerungstechnologie in Haushaltsgeräten angewendet werden kann

Bildquelle: https://www.iotnewsportal.com/iot-images/1512640413.png

1. Core-Technologie

Funktionen

Lösung

Zusammenfassung

Suche

Kategorien

Ausgewählte Autoren

Alle Autoren

Archiv

Tags

Kundenservice

Unternehmen

Ressourcen

Support

Folgen Sie uns

Mouser German Blog

Mouser Electronics, Inc german language blogs

Universal Windows Platform（UWP）

Bildquelle: https://www.iotnewsportal.com/iot-images/1512640413.png

Ähnliche Beiträge

Deep Learning: Neuronale Netzwerkalgorithmen gestern, heute und morgen

Den Algorithmus der Fahrzeugerkennung enträtseln

Übertragung von menschlichem Wissen auf künstliche Intelligenz

Es geschieht was an der Edge

Bessere Sensoren dank Nanotechnologie

Natürliche Sprachverarbeitung – Syntax & Stimmung

Suche

Kategorien

Ausgewählte Autoren

Alle Autoren

Archiv

Tags

Kundenservice

Unternehmen

Ressourcen

Support

Folgen Sie uns