Spracheingabe mit Natural Language Understanding

Starterkit für Sprachbedienung

Bild 02: Starterkit für Sprachbedienung (Quelle: Hy-Line Computer Components Vertriebs GmbH)

Entwicklung eines Sprachdialogs

Bild 03: Entwicklung eines Sprachdialogs (Quelle: Hy-Line Computer Components Vertriebs GmbH)

Die Ansprüche an eine bestimmte Technologie sind im professionellen Einsatz ungleich höher als im Smart-Home-Umfeld. Die nahe 100 % liegende Verfügbarkeit und Zuverlässigkeit spielen hier eine eminente Rolle. Ist es im Smart Home eine Unannehmlichkeit, wenn das Licht nicht auf Kommando eingeschaltet wird, ist es im professionellen Einsatz undenkbar, die OP-Leuchte nicht neu zu fokussieren oder den Braten im Dampfgarer nicht abzuschalten. 

Eine Analyse zeigt, dass bei Systemen, die an eine Cloud angebunden sind, Latenzen auftreten, die zu hoch sind. Offline-Systeme sind hier klar im Vorteil: Nicht nur arbeitet das System deterministisch und in Echtzeit, auch bleiben die Daten lokal und damit privat. Ohne den Zwang zu einer Anbindung an eine leistungsfähige Cloud, in der die Anfragen ausgewertet und bearbeitet werden, funktioniert das Gerät auch dort, wo eine Internet-Abdeckung fehlt, Daten nur mit einer mäßigen Bandbreite übertragen werden oder der Cloud-Anbieter seinen Service einstellt.

Das hier vorgestellte Konzept arbeitet hybrid: Das rechenintensive Training, bei dem die Sprachmodelle erstellt werden, findet auf einem leistungsfähigen Server in der Cloud statt. Nur das Ergebnis wandert in den lokalen Speicher und wird im Betrieb zur Erkennung der Eingabe verwendet. Dadurch reicht dem lokalen Rechner ein moderater Durchsatz aus, was sich in Wärmeentwicklung und Leistungsaufnahme positiv niederschlägt. Das bedeutet, dass die Sprachbedienung in der Ausführung rein auf dem lokalen System läuft und ohne Anbindung zur Laufzeit auskommt.

Sprachausgabe mit Text to Speech

Sprachsynthese macht aus der Sprachsteuerung mit Fokus auf Eingabe ein voll umfängliches Assistenzsystem mit Sprachausgabe auch für umfangreiche Texte. So kann sich der Bediener oder Servicetechniker aus einer hinterlegten Bedienungsanleitung mithilfe der passenden Suchbegriffe die relevanten Textpassagen heraussuchen und vorlesen lassen. Während der Fehlerbehebung bleiben die Augen weiter auf die Maschine gerichtet.

Auch hier hilft die KI bei der Erstellung der Synthesemodelle mit Machine-Learning-Algorithmen, um bei der Text-to-Speech-Ausgabe Fließtexte in eine dynamische, natürlich klingende Sprachausgabe umzuwandeln. Wie bei dem Training der Spracherkennung ist der Prozess hier auch zweistufig: Training in der Cloud, Interpretation und Wiedergabe nur lokal – damit bleiben Daten vertraulich und sicher.

Argumente für die Bedienung mit Sprache

Warum ist die Bedienung mit Sprache so interessant und wichtig? Sie ist einfach zu verstehen und intuitiv zu nutzen. Nach dem Wake Word, mit dem das System aufgeweckt und zum Zuhören aufgefordert wird, können in natürlicher Sprache Befehle gegeben oder Informationen abgerufen werden. Im Idealfall ist es möglich, das System als „Do-What-I-Mean“-Maschine zu nutzen.

Ein Argument für die Bedienung ist auch, dass Sprache schneller kommuniziert als über ein anderes Eingabemedium wie die Tastatur. Der Weg im Hirn vom Gedanken zum Sprachzentrum ist kürzer als der Umweg, die Fingermuskeln in der richtigen Reihenfolge anzusteuern und damit eine Tastatur zu bedienen.

Vielfältige Anwendungsbereiche

Hauptmedium ist immer noch die manuelle Eingabe, ob mit Tastatur, Maus, Gestensteuerung oder ganz einfach über Bedientaster. Sprache kann die Eingabe überall dort ersetzen, wo die Hände nicht zur Verfügung stehen, weil sie anderweitig verwendet werden oder schmutzig sind. Dazu gehört das HMI an der Maschine in der Fertigungslinie, wo beide Hände für das Werkstück gebraucht werden, oder das Informationssystem am Point of Sales, welches Auskunft erteilt, wo Läden in der Einkaufspassage oder Produkte in den Regalen zu finden sind. In der Gastronomie kann beim professionellen Küchengerät die Temperatur auf das Grad genau eingestellt werden, während die Hände für Lebensmittel sauber bleiben. In der Logistik gibt das Lagersystem Anweisungen, wo ein Artikel entnommen oder abgelegt werden soll. In der Medizintechnik kommt es darauf an, die Hände steril zu halten oder nicht zu verunreinigen, damit Viren und Bakterien nicht weitergetragen werden. Auch neue Felder wie das Smart Caravaning sind für die Sprachbedienung geeignet: Wo heute Einzellösungen für das Schalten von Licht oder die Abfrage der Füllung von Frisch- oder Brauchwassertank eingesetzt werden, kann eine einheitliche Oberfläche mit Sprachbedienung für eine einfachere Verdrahtung und ergonomischere Bedienung sorgen.

2 / 3

Ähnliche Beiträge