Sprache gewinnt für User Interfaces zunehmend an Bedeutung

Bild 01: Sprache gewinnt für User Interfaces zunehmend an Bedeutung (Quelle: Adobe Stock_lassedesignen_231199039)

Zuerst als nette Spielerei betrachtet, dann im Smart Home regelmäßig Bestandteil der Einrichtung – die Steuerung von Musik, Licht, Erinnerungs-Timern und Befüllen von Einkaufslisten ist mit dem Medium Sprache einfach und bequem. Während die Sprachbedienung anfänglich einen ähnlichen Komfortgewinn wie die drahtlose Fernbedienung des TV-Geräts bot, ist mittlerweile eine Infrastruktur entstanden, in der sie einen echten Mehrwert bietet. Amazon mit Alexa als Vorreiter unterstützt die Entwicklung von Spracherkennung. In dem neuen, Massive genannten Projekt stellt Amazon Datensätze in 51 Sprachen zur Verfügung, auf die Entwickler zurückgreifen können, um ihre Algorithmen und Systeme einem Test zu unterziehen.

Bedeutung der Sprachtechnologie

Das Consulting-Unternehmen Gartner erstellt Studien für die Zukunft verschiedener Technologien. Der sogenannte „Gartner Hype Cycle“ stellt dabei die Lebensphasen einer Technologie in fünf Stufen dar, die von der anfänglichen Euphorie über die Ernüchterung bei der Realisierung bis hin zum produktiven Einsatz reichen. Die Spracherkennung hat bereits die Phase der Produktivität erreicht, auf einem guten Wege dahin ist die Sprachsynthese. Noch Entwicklungsarbeit ist in das Verstehen und der Interpretation natürlicher Sprache zu legen (Bild 1).

Eine hohe Bedeutung nimmt nicht die rein algorithmische, sondern die durch künstliche Intelligenz (KI) unterstützte Spracherkennung ein. Doch was brauchen wir für den Einsatz in einem professionellen Umfeld, anders als die gängigen Sprachassistenten, die man auch einmal bitten kann, einen Witz zu erzählen? Im Sinne eines „guten“ HMI, das ergonomisch designt ist, erwartet man eine sprecherunabhängige Erkennung des gesprochenen Worts, möglichst in mehreren Sprachen, genau hinzuhören und auch wegzuhören (manchmal wird die Sprachbedienung getriggert, wenn das Schlüsselwort fälschlich erkannt wird), und tolerant bezüglich der Grammatik zu sein. Füllwörter wie „bitte“, „einmal“, „ja, genau“ und Räuspern sollen bitte ignoriert werden und nicht zu Fehlbedienungen führen.

Die Verwendung von KI auf der Hardwareplattform des Geräts kann schwierig sein: Umfangreiche Schaltungen mit hoher Leistungsaufnahme und entsprechendem Preis sind nicht ökonomisch realisierbar. Stattdessen verwendet man die KI in der Trainingsphase des Sprachsystems. Das Ergebnis wird dann auf die Hardwareplattform übertragen, die dann nur noch als Execution Engine agiert und daher mitwenigen Ressourcen in Hard- und Software auskommt.

Motivation

Die pandemische Situation hat die Tendenz befördert, nicht mehr jedes Bedienelement berühren zu wollen. Kann eine Aufgabe durch Sprachbedienung erledigt werden, ist dieser Kontakt überflüssig. Sind die Hände nicht frei, nicht sauber oder feucht, kann die Sprache herhalten. Möchte man auch noch „den Kopf freihaben“ und das Ergebnis nicht auf einem Display ablesen, hilft die Ausgabe in synthetischer Sprache. Die aktuelle Technologie ist weit über das hinaus, was in den 1980er-Jahren auf Homecomputern unter „Sprachausgabe“ verstanden wurde. Prosodie (Sprachmelodie) und Phrasierung klingen sehr natürlich, Satzzeichen strukturieren den angesagten Text.

Hy-Line verfolgt mit der HMI-5.0-Strategie die Absicht, möglichst viele Sinne zur Interaktion zwischen Mensch und Maschine einzusetzen – dort, wo es sinnvoll ist [1]. So steht die Partnerschaft zu Voice Inter Connect [2] unter dem Vorzeichen, das gesprochene Wort in die Kommunikation einzubeziehen, sei es als Eingabemedium zur Steuerung der Maschine oder als Ausgabe für deren Status. Eine wichtige Rolle spielt dabei auch das GUI, das eingegebene Befehle und deren Auswirkungen für den Anwender aufbereitet darstellt.

1 / 3

Ähnliche Beiträge