Technische Basis schon heute verfügbar

Basis der Gestenerkennung und -steuerung ist ein vortrainiertes neuronales Netzwerk

Basis der Gestenerkennung und -steuerung ist ein vortrainiertes neuronales Netzwerk, das die Videoaufnahmen aus der Anwendung auswertet und dann mit der jeweiligen OT-Lösung der Anlage verknüpft (Quelle: Siemens)

Die Kommunikation über Handzeichen und Gesten ist Teil einer Vielzahl von innovativen Benutzerinteraktionen, die sich unter dem Begriff multimodale Interaktion zusammenfassen lassen. Gemeint ist damit eine Kommunikation zwischen Menschen und Rechnersystemen, die neben Tastatur oder Touch-Screen weitere Arten der Eingabe von Informationen ermöglicht. Ein prominentes Beispiel für solche multimodalen Interaktionen ist eine Sprachsteuerung, wie sie heute bereits in Smartphones oder auch in Fahrzeugen Verwendung findet. Genau wie die Spracherkennung nutzt auch die Gestensteuerung Methoden der künstlichen Intelligenz, um die vom Menschen getätigte Eingabe zu erkennen. Die Gestensteuerung verwendet dazu Pose Estimation. Das ist ein Prozess, der die Position und Orientierung eines Körpers oder Körperteils, zum Beispiel der menschlichen Hand, im Raum detektiert, meist mithilfe von Deep-Learning-Algorithmen.

Die entsprechenden Algorithmen gibt es als vortrainierte Systeme, die bereits Positionen und Orientierung einer Hand erkennen können. Somit bedarf es für ihre Anwendung im Rahmen einer Gestensteuerung nur noch einer Nachjustierung. Dazu nimmt eine 2D-Kamera Bilder der Handzeichen auf, die der Algorithmus verarbeitet. Anschließend braucht es nur noch die eindeutige Definition, was eine detektierte Geste im jeweiligen Kontext, also zum Beispiel dem Scada-System einer Anlage, auslösen soll. Der Aufwand für das Deployment der Gestensteuerung hält sich daher im Rahmen: Für das finale Training des Algorithmus reichen üblicherweise bereits wenige Bilder aus. Und die Verknüpfung mit der OT-Ebene der Anlagen ist ebenfalls ohne große Eingriffe in die Architektur und Automatisierung möglich, etwa über einen Industrie-PC. Da die Inferenz, also die Anwendung der KI-Applikation auf die Videoaufnahmen in der Fertigung, keine hohen Ansprüche an die Rechenleistung stellt, ist ein Ausführen direkt auf Panel-Ebene denkbar.

Hohes Maß an Datenschutz bleibt gewährleistet

Die Trennung in Trainings- und Inferenzsystem gewährleistet, dass die Aufnahmen aus dem laufenden Prozess oder der Anlage nur lokal verarbeitet werden. Das Aufzeichnen der Videodaten ist nicht erforderlich, wodurch die persönliche Sphäre der Mitarbeiter geschützt bleibt. Sollen für eine spätere Nachverfolgung oder Kontrolle dennoch Daten aufgezeichnet werden, lassen sich zum Beispiel Gesichter oder andere persönliche Merkmale wie Ausweise oder dergleichen automatisch unkenntlich machen. Die lokale Datenverarbeitung hat auch im Hinblick auf die Sicherheit der Anlagendaten Vorteile, da keine Informationen aus dem laufenden Prozess an ein überlagertes IT-System oder eine Cloud weitergegeben werden und folglich nicht nach außen dringen. Nicht zuletzt benötigt die Gestensteuerung daher auch keine großen Bandbreiten für die Datenkommunikation, was ihren flexiblen Einsatz in bestehenden Anlagen und Systemen erleichtert.

2 / 3

Ähnliche Beiträge