Trendthema Sprachsteuerung: Warum Siri und Co. die Zukunft gehört

Computer per Sprache zu steuern gehörte für die meisten Experten bisher ins Reich der Science-Fiction. Doch mit stärkerer Hardware und neuen Techniken könnten die Visionen bald wahr werden. [...]

ZWEI ARTEN FÜR DIE REALISIERUNG
Aus IT-Sicht gibt es grundsätzlich zwei Möglichkeiten, ein System mit Spracherkennung zu realisieren. Im ersten Modell sind die Anwendungen auf einem Endgerät installiert und benötigen keinen Internet-Zugriff. Ein Beispiel ist „Voice Remote Control“. Dahinter verbirgt sich eine Fernbedienung, die Semvox in Kooperation mit dem luxemburgischen Unternehmen Homesystem entwickelt hat. Die Fernbedienung lässt sich etwa zur Steuerung eines Lichtsystems oder von kabellos verbundenen Rasensprengern verwenden. Möchte der Anwender das Licht anschalten, muss er der Fernbedienung „Licht an“ diktieren.
Homesystem bestand bei der Entwicklung auf zwei Bedingungen: Das System sollte keinen Zugriff auf externe Server haben und auf einem Android-Gerät funktionieren. Der Anwendungsbereich ist in diesem Fall überschaubar: Die Daten werden dediziert auf einem Smartphone verarbeitet und lediglich lokal auf dem Gerät genutzt. Zudem ist in diesem Beispiel der verwendete Wortschatz begrenzt, da die Sprachbedienung nur für bestimmte Bereiche dient, etwa für die Beleuchtung des Hauses oder ein Bewässerungssystem.
Ähnlich wie bei den meisten Navigationssystemen mit Spracherkennung, funktioniert die Verarbeitung grammatikbasiert. Der Nutzer sagt dem System in Wortgruppen, was es tun soll, und dieses reagiert – zum Beispiel „Navigieren nach München, Allianz Arena“ oder „System XY, Licht anschalten“. Die Verarbeitung des Sprachbefehls ist in diesem Fall relativ zuverlässig und erreicht hohe Trefferquoten von über 90 Prozent. Allerdings versagt die Software, wo eine Unsicherheit beim Anwender auftaucht oder nichtstandardisierte Formulierungen verwendet werden.
CLOUD-BASIERTE SYSTEME
Im Gegensatz dazu funktioniert im zweiten Modell ein Programm wie Siri oder Google Now auf Basis einer Open Domain Platform, die auf einem Server installiert ist. Bei dieser Variante werden die Spracheingaben unabhängig von Formulierungen und dem Sprachkontext verarbeitet. Auf dem Server befindet sich eine Plattform für die Sprachverarbeitung. Spricht zum Beispiel ein Siri-Nutzer einen Satz in sein Smartphone, werden die Wörter in einzelne Textbausteine zerlegt und an die Plattform verschickt.
Die Software scannt die gespeicherte Bibliothek nach Schlüsselwörtern und sendet die wahrscheinlichste Lösung zurück. So gibt der Anwender zum Beispiel einen Sprachbefehl, den das System dann in eine Handlung umsetzt: „Erstelle eine E-Mail an Person XY: Ich komme eine Stunde später.“ Der ODP-Server erkennt das Wort „E-Mail“ und signalisiert dem Smartphone, dass der Nutzer eine Nachricht schreiben möchte. Anschließend öffnet sich das E-Mail-Programm, und der Text kann diktiert werden. Bei dieser Lösung sind zwar unendlich viele Wortkombinationen möglich, die Verarbeitung ist aber weniger zuverlässig als bei einer grammatikbasierten Software. Allerdings kann ein ODP-Server auch viele Benutzer gleichzeitig bedienen, und die Datenbank mit den gespeicherten Wörtern ist erweiterbar.
Als zusätzliche Variante bietet beispielsweise Semvox eine Server-basierte Sprachverarbeitung in einer eigenen Infrastruktur an. Die Server hostet der Kunde. Die Plattform (ODP Server) stammt von Semvox. Die Installation kann mehrere Anwender bedienen und lässt sich laut Firmenchef Pfleger skalieren sowie in eine bestehende Infrastruktur integrieren.


Mehr Artikel

Gregor Schmid, Projektcenterleiter bei Kumavision, über die Digitalisierung im Mittelstand und die Chancen durch Künstliche Intelligenz. (c) timeline/Rudi Handl
Interview

„Die Zukunft ist modular, flexibel und KI-gestützt“

Im Gespräch mit der ITWELT.at verdeutlicht Gregor Schmid, Projektcenterleiter bei Kumavision, wie sehr sich die Anforderungen an ERP-Systeme und die digitale Transformation in den letzten Jahren verändert haben und verweist dabei auf den Trend zu modularen Lösungen, die Bedeutung der Cloud und die Rolle von Künstlicher Intelligenz (KI) in der Unternehmenspraxis. […]

News

Richtlinien für sichere KI-Entwicklung

Die „Guidelines for Secure Development and Deployment of AI Systems“ von Kaspersky behandeln zentrale Aspekte der Entwicklung, Bereitstellung und des Betriebs von KI-Systemen, einschließlich Design, bewährter Sicherheitspraktiken und Integration, ohne sich auf die Entwicklung grundlegender Modelle zu fokussieren. […]

News

Datensilos blockieren Abwehrkräfte von generativer KI

Damit KI eine Rolle in der Cyberabwehr spielen kann, ist sie auf leicht zugängliche Echtzeitdaten angewiesen. Das heißt, die zunehmende Leistungsfähigkeit von GenAI kann nur dann wirksam werden, wenn die KI Zugriff auf einwandfreie, validierte, standardisierte und vor allem hochverfügbare Daten in allen Anwendungen und Systemen sowie für alle Nutzer hat. Dies setzt allerdings voraus, dass Unternehmen in der Lage sind, ihre Datensilos aufzulösen. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*