Kickstart für die professionelle Sprachbedienung

Ablauf zur Laufzeit

Bild 04: Ablauf zur Laufzeit (Quelle: Hy-Line Computer Components Vertriebs GmbH)

Mit einer fertigen Hard- und Softwarelösung ist der Weg von der Idee bis zur fertigen Umsetzung einer Sprachbedienung nicht so steinig. Bild 2 zeigt das Starterkit, das nicht nur die ersten Schritte vereinfacht. Um ein Gerät zu entwickeln, das professionellen Ansprüchen genügt und rund um die Uhr im Einsatz ist, steht ein Web-SDK zur Verfügung, das die erforderlichen Algorithmen und Modelle abstrahiert. Unterschiedliche Sprachen sind bereits in Modulen hinterlegt. Der Entwickler erstellt das SUI (Speech User Interface) für die individuelle Anwendung mit spezifischen Dialogen und Befehlen. Darunter liegt das Maschineninterface, das Befehle des SUI an Hardware und GUI weitergibt. 

Die Software

Als Teil des Starter-Kits steht ein Web-SDK zur Verfügung, mit dem die Beispiele weiter erkundet und eigene Applikationen erstellt werden können. Ganz ohne Programmierung werden eigene Dialogmodelle erstellt, indem Bedienphrasen mit Schlüsselwörtern eingegeben und auf dem Server kompiliert werden. Das Ergebnis wird dann auf das Starter-Kit heruntergeladen und funktioniert ohne Internet-Anbindung.

Iterativ wächst das Sprachsystem, indem Synonyme als Alternativ-Eingaben und weitere Befehlssätze formuliert werden. Die Architektur nimmt den Text entgegen und erkennt selbstständig Schlüsselworte, die es als Subjekt oder Prädikat zuordnet. Füllworte wie „bitte“ und „äh“ werden übersprungen. Das SDK stellt Application Program Interfaces (API) zur Verfügung, die über MQTT an das Gerät übergeben werden können. Damit wird der erkannte Sprachbefehl in eine Hardwareaktion umgesetzt. Dieser sind keine Grenzen gesetzt; die Reaktion kann in einer Sprachausgabe, einem Schalten eines Ports, einer Ausgabe auf dem Display oder der Änderung eines Wertes in einem JSONFile (Datenaustauschformat JavaScript Object Notation) liegen. Das Kit ist vielseitig genug, um externe Geräte anzusteuern, sodass mit ihm funktionsfähige Prototypen erstellt und die Akzeptanz in der Zielgruppe getestet werden kann.

Die Hardware

Angetrieben wird das Sprachbedienungs-Kit von einem Single-Board-Computer im picoITX-Format, der auf der leistungsstarken iMX8.M-CPU basiert. Das Bedieninterface ist ein 10,1-Zoll-Display mit HD-Auflösung und kapazitivem Touch-Screen. Alle Komponenten sind für den industriellen Einsatz geeignet, sodass eine kommerzielle Umsetzung auch mit dem Starter-Kit erfolgen kann. Natürlich kann die so erstellte Applikation auch auf eine andere Zielplattform portiert werden. Dies spart Zeit und Kosten bei der individuellen Sprachanwendung.

Die akustische Ausgabe kann im einfachen Fall mit einem Summer erfolgen. Besser wird allerdings ein Lautsprecher eingesetzt, der breitbandig Quittierungstöne und Sprachmeldungen ausgeben kann. Während frühere Systeme zuvor aufgenommene Audio-Schnipsel zusammensetzten, um Meldungen auszugeben – wie etwa bei der Ansage von Uhrzeit und Datum – bietet mittlerweile Text to speech (TTS) die Freiheit, beliebige Texte in beliebigen Sprachen aus einem Textfile auszugeben. Der Wortschatz ist damit praktisch nicht limitiert und funktioniert genau wie die Spracheingabe lokal auf dem System ohne Internetverbindung zur Laufzeit.

Ablauf einer Implementierung

Mithilfe einer webbasierten Entwicklungsumgebung sind die folgenden Schritte erforderlich, um ein System für die eigene Anwendung zu definieren. Der Sprachdialog, also das Aktivierungswort, mit dem die Aufmerksamkeit des Systems auf Eingabe hergestellt wird, die zulässigen Kommandos und deren Parameter, werden im Webtool als Texteingabe zusammengestellt (Bild 3). Während der Eingabe findet bereits der erste Verarbeitungsschritt statt: Grapheme, also eingegebene Zeichen, werden in Phoneme, also kleinste akustische Bestandteile der Sprache, umgewandelt.

Sind alle Worte definiert, werden mit den KI-basierten Algorithmen die definierten Sprachressourcen in ein statistisches und ein semantisches Modell übersetzt und zum Download angeboten. Das Ergebnis wird auf die Zielplattform heruntergeladen und gestartet. Dann kann der Netzwerkstecker gezogen werden – das Endprodukt läuft autark. Den Ablauf in der fertigen Applikation stellt Bild 4 dar.

Audio-Technologie

Erstaunlich sind die Fähigkeiten des Gehirns, mit zwei Ohren und der Geometrie des Kopfes Geräusche zu isolieren und andere ganz auszublenden. So gelingt es uns, auch an einem Tisch im Restaurant mit vielen Gästen uns auf das Gespräch mit dem Gegenüber zu fokussieren, die ebenso redenden Nachbarn und das Geklapper des Geschirrs aber auszublenden. Für ein Sprachsystem ist dies nicht so einfach. Erst durch die Hilfe eines Richtmikrofons oder elektronischer Filter erzielt das System eine ebenso hohe Erkennungsqualität durch Steigerung des Signal-Stör-Abstands. Das Richtmikrofon muss dabei nicht die lange Bauform haben, die man aus TV-Interviews kennt. Ein Array (Anordnung) mehrerer Einzelmikrofone erlaubt es, auch aus einer lauten Umgebung den Sprecher des „Wake Words“ zu identifizieren und ihm bei Bedarf zu folgen. Damit steigert sich die Erkennungsgenauigkeit, die Reaktionsgeschwindigkeit und die Akzeptanz des Systems. Die gleiche Technologie lässt sich auf der Audio-Ausgabeseite verwenden, um den Schall gezielt in eine Richtung abzustrahlen.

Fazit

Mit der Ergänzung durch Sprache gewinnt jedes User Interface eine neue Dimension. Die Implementierung ist einfacher als gedacht, denn mit dem Starterkit kann nicht nur sofort ein Demo gestartet werden, sondern auch erste Schritte mit eigenen Kommandos und Ausgaben gegangen werden. Für die Implementierung von Protokollen zur Ansteuerung externer Geräte steht ein leistungsfähiges SDK zur Verfügung. Aufgrund der State-of-the-art-Technologie arbeitet das System unabhängig vom Sprecher; 30 Sprachen sind vordefiniert. Auch auf Plattformen mit beschränkten CPU- und Speicher-Ressourcen kann diese Lösung eingesetzt werden. Unter Umständen reicht hier auch ein digitaler Signalprozessor. Know-how in der Verarbeitung und Aufbereitung von Audio-Signalen garantiert ein zuverlässiges, schnelles System ohne Online-Verbindung.

Literatur

  1. Sprachsteuerung von Hy-Line Computer Components Vertriebs GmbH, Unterhaching: www.hy-line-group.com/sprachsteuerung
  2. Voice Inter Connect GmbH, Dresden: www.voiceinterconnect.de
Rudolf Sosnowsky
3 / 3

Ähnliche Beiträge