Trendthema Sprachsteuerung: Warum Siri und Co. die Zukunft gehört

Computer per Sprache zu steuern gehörte für die meisten Experten bisher ins Reich der Science-Fiction. Doch mit stärkerer Hardware und neuen Techniken könnten die Visionen bald wahr werden. [...]

DRITTER WEG: HYBRIDE TECHNIK
Bei der Entwicklung neuer Programme setzen einige Anbieter auf die Kombination beider Lösungen: hybride Spracherkennung. „Wir sehen einen Hybrid-Ansatz derzeit als Idealweg“, erläutert Pfleger. „Bei diesem Ansatz arbeitet die Software auf einem lokalen, grammatikbasierten System. Gleichzeitig läuft ein Open-Domain-Erkenner im Hintergrund.“
Die Verknüpfung der Technologie wird da interessant, wo Anwender in einem individuellen Kontext handeln. Ein Beispiel sind Navigationssysteme in Autos. Befindet sich der Fahrer gerade in einer fremden Umgebung und sucht zu einer bestimmten Tageszeit ein Restaurant, dann sollte das System diesen Kontext berücksichtigen. Ist er um 9 Uhr morgens unterwegs und will etwas essen, dann fahndet die Software im Idealfall nach einem Lokal mit Frühstück.
Beim sogenannten situativen Kontext werden Faktoren wie Ort, Uhrzeit, aber auch Wetterdaten berücksichtigt. Daneben spielen Interaktionshistorie und Diskurskontext eine Rolle. Unterhält sich der Fahrer mit dem Beifahrer über einen Ort oder ein Ereignis, dann sollte das System die im Gespräch behandelten Objekte tracken und später abrufen. Schließlich ist auch der Applikationskontext von Bedeutung. So erkennt eine Anwendung wie Voice Remote Control, dass ein Gerät bereits eingeschaltet ist. Sagt der Anwender: „Schalte das Licht an“, antwortet das System: „Das Licht ist angeschaltet.“
ANWENDER STEPHEN HAWKIN
Hybride Modelle sind eine Möglichkeit, um komplexe Interaktionen zu verarbeiten. Standardbefehle für die Navigation sind in der Bibliothek des Navigationsgeräts oder Smartphones gespeichert. Die Verarbeitung funktioniert schneller, und der Nutzer erhält ein zuverlässiges Ergebnis. Gleichzeitig benötigt das System für den Kontext, also etwa bei der Restaurantsuche für das Abendessen, Daten vom Server.
Im Gesundheitswesen hat sich Sprachsteuerung zu einem wertvollen Werkzeug entwickelt. Ein prominentes Beispiel ist „Dectalk“, eine in den 1980er Jahren entwickelte Text-to-Speech-Anwendung, die unter anderem der Physik-Nobelpreisträger Stephen Hawking nutzt. In Folge einer Luftröhrenoperation konnte der britische Physiker nicht mehr sprechen. Ein speziell entwickelter Sprachcomputer ermöglicht ihm, durch Augenbewegungen Begriffe auf einem Bildschirm auszuwählen, die dann vom integrierten Sprachgenerator wiedergegeben werden.
SPRACHERKENNUNG IN DER MEDIZIN
Neben diesem individuellen Einsatzszenario, werden im Gesundheitswesen auch allgemeinere sprachbasierte Lösungen erforscht. Die Entwicklung befindet sich aber noch am Anfang. Beispielsweise erprobt Semvox in Kooperation mit dem Universitätsklinikum Schleswig-Holstein die Sprachsteuerung im Operationssaal. „Ärzte sollen einen Zugriff auf digitale Bilddatenbanken bekommen, ohne die Hände benutzen zu müssen“, erklärt Pfleger.


Mehr Artikel

News

Bad Bots werden immer menschenähnlicher

Bei Bad Bots handelt es sich um automatisierte Softwareprogramme, die für die Durchführung von Online-Aktivitäten im großen Maßstab entwickelt werden. Bad Bots sind für entsprechend schädliche Online-Aktivitäten konzipiert und können gegen viele verschiedene Ziele eingesetzt werden, darunter Websites, Server, APIs und andere Endpunkte. […]

Frauen berichten vielfach, dass ihre Schmerzen manchmal jahrelang nicht ernst genommen oder belächelt wurden. Künftig sollen Schmerzen gendersensibel in 3D visualisiert werden (c) mit KI generiert/DALL-E
News

Schmerzforschung und Gendermedizin

Im Projekt „Embodied Perceptions“ unter Leitung des AIT Center for Technology Experience wird das Thema Schmerzen ganzheitlich und gendersensibel betrachtet: Das Projektteam forscht zu Möglichkeiten, subjektives Schmerzempfinden über 3D-Avatare zu visualisieren. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*