Trendthema Sprachsteuerung: Warum Siri und Co. die Zukunft gehört

Computer per Sprache zu steuern gehörte für die meisten Experten bisher ins Reich der Science-Fiction. Doch mit stärkerer Hardware und neuen Techniken könnten die Visionen bald wahr werden. [...]

ZWEI ARTEN FÜR DIE REALISIERUNG
Aus IT-Sicht gibt es grundsätzlich zwei Möglichkeiten, ein System mit Spracherkennung zu realisieren. Im ersten Modell sind die Anwendungen auf einem Endgerät installiert und benötigen keinen Internet-Zugriff. Ein Beispiel ist „Voice Remote Control“. Dahinter verbirgt sich eine Fernbedienung, die Semvox in Kooperation mit dem luxemburgischen Unternehmen Homesystem entwickelt hat. Die Fernbedienung lässt sich etwa zur Steuerung eines Lichtsystems oder von kabellos verbundenen Rasensprengern verwenden. Möchte der Anwender das Licht anschalten, muss er der Fernbedienung „Licht an“ diktieren.
Homesystem bestand bei der Entwicklung auf zwei Bedingungen: Das System sollte keinen Zugriff auf externe Server haben und auf einem Android-Gerät funktionieren. Der Anwendungsbereich ist in diesem Fall überschaubar: Die Daten werden dediziert auf einem Smartphone verarbeitet und lediglich lokal auf dem Gerät genutzt. Zudem ist in diesem Beispiel der verwendete Wortschatz begrenzt, da die Sprachbedienung nur für bestimmte Bereiche dient, etwa für die Beleuchtung des Hauses oder ein Bewässerungssystem.
Ähnlich wie bei den meisten Navigationssystemen mit Spracherkennung, funktioniert die Verarbeitung grammatikbasiert. Der Nutzer sagt dem System in Wortgruppen, was es tun soll, und dieses reagiert – zum Beispiel „Navigieren nach München, Allianz Arena“ oder „System XY, Licht anschalten“. Die Verarbeitung des Sprachbefehls ist in diesem Fall relativ zuverlässig und erreicht hohe Trefferquoten von über 90 Prozent. Allerdings versagt die Software, wo eine Unsicherheit beim Anwender auftaucht oder nichtstandardisierte Formulierungen verwendet werden.
CLOUD-BASIERTE SYSTEME
Im Gegensatz dazu funktioniert im zweiten Modell ein Programm wie Siri oder Google Now auf Basis einer Open Domain Platform, die auf einem Server installiert ist. Bei dieser Variante werden die Spracheingaben unabhängig von Formulierungen und dem Sprachkontext verarbeitet. Auf dem Server befindet sich eine Plattform für die Sprachverarbeitung. Spricht zum Beispiel ein Siri-Nutzer einen Satz in sein Smartphone, werden die Wörter in einzelne Textbausteine zerlegt und an die Plattform verschickt.
Die Software scannt die gespeicherte Bibliothek nach Schlüsselwörtern und sendet die wahrscheinlichste Lösung zurück. So gibt der Anwender zum Beispiel einen Sprachbefehl, den das System dann in eine Handlung umsetzt: „Erstelle eine E-Mail an Person XY: Ich komme eine Stunde später.“ Der ODP-Server erkennt das Wort „E-Mail“ und signalisiert dem Smartphone, dass der Nutzer eine Nachricht schreiben möchte. Anschließend öffnet sich das E-Mail-Programm, und der Text kann diktiert werden. Bei dieser Lösung sind zwar unendlich viele Wortkombinationen möglich, die Verarbeitung ist aber weniger zuverlässig als bei einer grammatikbasierten Software. Allerdings kann ein ODP-Server auch viele Benutzer gleichzeitig bedienen, und die Datenbank mit den gespeicherten Wörtern ist erweiterbar.
Als zusätzliche Variante bietet beispielsweise Semvox eine Server-basierte Sprachverarbeitung in einer eigenen Infrastruktur an. Die Server hostet der Kunde. Die Plattform (ODP Server) stammt von Semvox. Die Installation kann mehrere Anwender bedienen und lässt sich laut Firmenchef Pfleger skalieren sowie in eine bestehende Infrastruktur integrieren.


Mehr Artikel

News

Cybersicherheitsbudgets werden falsch priorisiert

Der ICS/OT Cybersecurity Budget Report 2025 von OPSWAT deckt erhebliche Lücken in den Cybersicherheitsbudgets sowie einen Anstieg von ICS/OT-fokussierten Angriffen auf. Ferner wird deutlich, wie durch eine unzureichende Finanzierung, falsch gesetzte Prioritäten und uneinheitliche Abwehrmaßnahmen kritische Infrastrukturen immer raffinierteren Bedrohungen ausgesetzt sind. […]

News

Nach dem Hype: Diese vier KI-Trends werden 2025 weiterhin prägen

Die vergangenen zwei Jahre haben einen regelrechten KI-Boom erlebt. Insbesondere generative Modelle (GenAI) haben sich rasant weiterentwickelt und etablieren sich zunehmend als feste Größe in den Arbeitsprozessen von Organisationen weltweit. Angesichts dieser Dynamik fragen sich nun viele Unternehmen, welche Entwicklungen das Jahr 2025 bestimmen werden und welche Potenziale sich daraus ergeben. […]

News

Generative KI als Sicherheitsrisiko

Eine neue Studie von Netskope zeigt einen 30-fachen Anstieg der Daten, die von Unternehmensanwendern im letzten Jahr an GenAI-Apps (generative KI) gesendet wurden. Dazu gehören sensible Daten wie Quellcode, regulierte Daten, Passwörter und Schlüssel sowie geistiges Eigentum. Dies erhöht das Risiko von kostspieligen Sicherheitsverletzungen, Compliance-Verstößen und Diebstahl geistigen Eigentums erheblich. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*