28. März 2025

Trendthema Sprachsteuerung: Warum Siri und Co. die Zukunft gehört

Computer per Sprache zu steuern gehörte für die meisten Experten bisher ins Reich der Science-Fiction. Doch mit stärkerer Hardware und neuen Techniken könnten die Visionen bald wahr werden. [...]

ZWEI ARTEN FÜR DIE REALISIERUNG
Aus IT-Sicht gibt es grundsätzlich zwei Möglichkeiten, ein System mit Spracherkennung zu realisieren. Im ersten Modell sind die Anwendungen auf einem Endgerät installiert und benötigen keinen Internet-Zugriff. Ein Beispiel ist „Voice Remote Control“. Dahinter verbirgt sich eine Fernbedienung, die Semvox in Kooperation mit dem luxemburgischen Unternehmen Homesystem entwickelt hat. Die Fernbedienung lässt sich etwa zur Steuerung eines Lichtsystems oder von kabellos verbundenen Rasensprengern verwenden. Möchte der Anwender das Licht anschalten, muss er der Fernbedienung „Licht an“ diktieren.
Homesystem bestand bei der Entwicklung auf zwei Bedingungen: Das System sollte keinen Zugriff auf externe Server haben und auf einem Android-Gerät funktionieren. Der Anwendungsbereich ist in diesem Fall überschaubar: Die Daten werden dediziert auf einem Smartphone verarbeitet und lediglich lokal auf dem Gerät genutzt. Zudem ist in diesem Beispiel der verwendete Wortschatz begrenzt, da die Sprachbedienung nur für bestimmte Bereiche dient, etwa für die Beleuchtung des Hauses oder ein Bewässerungssystem.
Ähnlich wie bei den meisten Navigationssystemen mit Spracherkennung, funktioniert die Verarbeitung grammatikbasiert. Der Nutzer sagt dem System in Wortgruppen, was es tun soll, und dieses reagiert – zum Beispiel „Navigieren nach München, Allianz Arena“ oder „System XY, Licht anschalten“. Die Verarbeitung des Sprachbefehls ist in diesem Fall relativ zuverlässig und erreicht hohe Trefferquoten von über 90 Prozent. Allerdings versagt die Software, wo eine Unsicherheit beim Anwender auftaucht oder nichtstandardisierte Formulierungen verwendet werden.
CLOUD-BASIERTE SYSTEME
Im Gegensatz dazu funktioniert im zweiten Modell ein Programm wie Siri oder Google Now auf Basis einer Open Domain Platform, die auf einem Server installiert ist. Bei dieser Variante werden die Spracheingaben unabhängig von Formulierungen und dem Sprachkontext verarbeitet. Auf dem Server befindet sich eine Plattform für die Sprachverarbeitung. Spricht zum Beispiel ein Siri-Nutzer einen Satz in sein Smartphone, werden die Wörter in einzelne Textbausteine zerlegt und an die Plattform verschickt.
Die Software scannt die gespeicherte Bibliothek nach Schlüsselwörtern und sendet die wahrscheinlichste Lösung zurück. So gibt der Anwender zum Beispiel einen Sprachbefehl, den das System dann in eine Handlung umsetzt: „Erstelle eine E-Mail an Person XY: Ich komme eine Stunde später.“ Der ODP-Server erkennt das Wort „E-Mail“ und signalisiert dem Smartphone, dass der Nutzer eine Nachricht schreiben möchte. Anschließend öffnet sich das E-Mail-Programm, und der Text kann diktiert werden. Bei dieser Lösung sind zwar unendlich viele Wortkombinationen möglich, die Verarbeitung ist aber weniger zuverlässig als bei einer grammatikbasierten Software. Allerdings kann ein ODP-Server auch viele Benutzer gleichzeitig bedienen, und die Datenbank mit den gespeicherten Wörtern ist erweiterbar.
Als zusätzliche Variante bietet beispielsweise Semvox eine Server-basierte Sprachverarbeitung in einer eigenen Infrastruktur an. Die Server hostet der Kunde. Die Plattform (ODP Server) stammt von Semvox. Die Installation kann mehrere Anwender bedienen und lässt sich laut Firmenchef Pfleger skalieren sowie in eine bestehende Infrastruktur integrieren.

1 2 3 4 5 6

Cybersicherheitsbudgets werden falsch priorisiert

28. März 2025

Der ICS/OT Cybersecurity Budget Report 2025 von OPSWAT deckt erhebliche Lücken in den Cybersicherheitsbudgets sowie einen Anstieg von ICS/OT-fokussierten Angriffen auf. Ferner wird deutlich, wie durch eine unzureichende Finanzierung, falsch gesetzte Prioritäten und uneinheitliche Abwehrmaßnahmen kritische Infrastrukturen immer raffinierteren Bedrohungen ausgesetzt sind. […]

Nach dem Hype: Diese vier KI-Trends werden 2025 weiterhin prägen

28. März 2025

Die vergangenen zwei Jahre haben einen regelrechten KI-Boom erlebt. Insbesondere generative Modelle (GenAI) haben sich rasant weiterentwickelt und etablieren sich zunehmend als feste Größe in den Arbeitsprozessen von Organisationen weltweit. Angesichts dieser Dynamik fragen sich nun viele Unternehmen, welche Entwicklungen das Jahr 2025 bestimmen werden und welche Potenziale sich daraus ergeben. […]

IT-Chefs von ORF und der Österreichischen Post als CIOs des Jahres ausgezeichnet

28. März 2025

Astrid Zöchling, CIO des ORF, und Horst Ulrich Mooshandl, CIO & CPO der Österreichischen Post, wurden von Confare mit dem CIO Award 2025 ausgezeichnet. Die weiteren Top CIOs des Jahres sind Franz Hillebrand, ehemaliger CIO der SIGNA, Martin Karanitsch, CIO der Österreichischen Nationalbank und Peter Reichstädter, CIO der Parlamentsdirektion. […]

Die Wi-Fi-Standards

28. März 2025 Luca Diggelmann *

Die Welt der Wi-Fi-Standards wirkt kompliziert. Es gibt Wi-Fi 5, Wi-Fi 6 und bald Wi-Fi 7. Doch welcher Standard kann was? Wir erklären Ihnen die aktuellen Wi-Fi-Standards und verraten, was diese taugen. […]

In sieben Minuten kann METRO Markets über 200 Kategorie-Seiten erstellen. (c) Storyblok

METRO Markets optimiert Content-Prozesse mit Storyblok

27. März 2025 pi/cb

METRO Markets implementiert Storyblok als CMS und automatisiert zentrale Prozesse. Dadurch steigern sich Effizienz, SEO-Leistung und Personalisierung im E-Commerce. […]

„Der Mensch bleibt das Maß aller Dinge“

27. März 2025 Wolfgang Franz

Am 25. März startete der europäische IT-Sicherheitshersteller ESET die ESET World 2025 im ARIA Resort & Casino in Las Vegas. CEO Richard Marko gab in seiner Keynote eine Übersicht der aktuellen Herausforderungen in Sachen Cybersecurity und der Möglichkeiten, diese zu meistern. […]

Generative KI als Sicherheitsrisiko

27. März 2025

Eine neue Studie von Netskope zeigt einen 30-fachen Anstieg der Daten, die von Unternehmensanwendern im letzten Jahr an GenAI-Apps (generative KI) gesendet wurden. Dazu gehören sensible Daten wie Quellcode, regulierte Daten, Passwörter und Schlüssel sowie geistiges Eigentum. Dies erhöht das Risiko von kostspieligen Sicherheitsverletzungen, Compliance-Verstößen und Diebstahl geistigen Eigentums erheblich. […]

KI direkt am Edge: fünf unschlagbare Vorteile

27. März 2025

Die Integration von künstlicher Intelligenz am Edge schafft einen Paradigmenwechsel in der Datenverarbeitung. Moderne IT-Plattformen mit ihren kompakten KI-Servern ermöglichen es, wichtige Informationen direkt an der Quelle zu analysieren. […]

Phishing-as-a-Service: Professionalität krimineller Dienstleister nimmt spürbar zu

27. März 2025 Martin J. Krämer *

Dank Phishing-as-a-Service können Phishing-Attacken mittlerweile auch von Angreifern ohne Hacking- und Social-Engineering-Kenntnisse problemlos durchgeführt werden, was 2024 zu einer Vervierfachung der Ransomware-Bedrohungen geführt hat. […]

Be the first to comment

Leave a Reply Antworten abbrechen

Computer per Sprache zu steuern gehörte für die meisten Experten bisher ins Reich der Science-Fiction. Doch mit stärkerer Hardware und neuen Techniken könnten die Visionen bald wahr werden. [...]

Mehr Artikel

Be the first to comment

Leave a Reply Antworten abbrechen