Amazon, Google, Apple und Alibaba treiben den Markt der Sprachassistenten. Die großen Herausforderungen liegen aktuell in den Assistenzfunktionen. [...]
Das führte bei der Google I/O Konferenz im Mai wieder einmal zum Erstaunen des Publikums: das von Google vorgestellte, KI-unterstütze Sprachsystem übernimmt Frisörtermin und Tischreservierung selbstständig, mit „menschlich“ klingender Stimme und flexiblen Antworten, die fast nicht mehr als „künstlich“ erkannt werden – „ähs“ und „ummms“ sei Dank.
Laut Mary Meekers Internet Trends Report 2017 werden 20 Prozent der mobilen Suchanfragen per Voice Search gemacht. Dass Google, Amazon, Alibaba und Co. in großem Stil in digitale Sprachassistenten investieren verwundert nicht. Experten vermuten, dass bis 2020 rund 50 Prozent der Suchanfragen durch Sprache oder Bilder gemacht werden. Und von der Suche ist es nicht weit bis zur Handlung, die auch gleich dem digitalen Assistenten angeschafft werden kann.
Die Vision: unser Alltag wird sich durch Smart Devices stark verändern und vereinfachen – Aufgaben werden per Kommando an den digitalen Assistenten delegiert, der die individuellen Bedürfnisse versteht und kennt. Bis es so weit ist nehmen wir uns Zeit für einen Blick auf die Funktionsweisen und Errungenschaften im Bereich digitaler Sprachassistenten.
Sie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Warum Sprachassistenz
Das Smartphone ist heute immer mit dabei. Haben Funktionen wie Swype und Autocomplete die (Such)Eingabe schon zuvor massiv erleichtert, ist die Spracheingabe nun die nächste Vereinfachung. Siri, Alexa und Co. suggerieren dazu eine persönliche Konversation – die Stimmen klingen zunehmend real und die Antworten authentisch.
Der zweite und wichtigere Aspekt ist die Funktionalität der Systeme und Devices und ihr zunehmender Umfang. Inzwischen wird nicht mehr nur mit Stimmeingabe gesucht, sondern aktiviert, gebucht und gekauft. Die Frage liegt also nahe, welche stimmgesteuerten Funktionen die Devices in Zukunft für uns übernehmen werden.
Wo endet Voice Search, wo beginnt Sprachassistenz?
Sprachgesteuert bekommt man vom Smartphone heute schon viele Hilfestellungen: Auskunft über den Wetterbericht, das nächste vietnamesische Restaurant, man startet per Sprachbefehl ein Video oder den Lieblingssong. Systeme wie der Google Assistant, Apples Siri und Microsofts‘ Cortana sind in Geräte wie Smartphones, TV oder Smartwatches integriert. Mit Google Home, Amazon Echo & Co. gibt es Stand Alone Devices oder auch Smart Speaker, die zum Beispiel zu Hause oder im Büro stehen. Reine Smart Home Devices wiederum zielen auf Aktionen im Haus (wie z.B. eine Zeitschaltung für die Heizung) ab und erfüllen keine weiteren Assistenzfunktionen.
Prinzipiell sind die Systeme miteinander und mit dem Internet verbunden. Der persönliche, digitale Assistent kann Fragen genauso beantworten wie Aktionen ausführen – und deren Bandbreite wird immer größer. Unterscheidet man die Funktionen der Assistenten, so gibt es
- die rein informative (auf die Frage, wie das Wetter wird, möchte der User eine Antwort haben, und keine Ergebnisliste) und
- die handelnde.
Um handeln zu können, müssen die Assistenten wesentlich intelligenter sein und Informationen aus dem Kontext heraus verstehen können. Hier bewegt man sich schließlich in den Bereich künstlicher Intelligenz.
Die Skills: Was können sie, was sollen sie können?
Voice Search ersetzt das Eintippen einer Anfrage in der Suchmaske – mit Kommandos wie „ok google“ aktiviert man die Sucheingabe. Die „Frage“ kann dabei auch ein Sprachkommando sein – bei „Wetter Wien“ ist die gewünschte Information klar. Die Ergebnisse sieht der User am Diplay oder bekommt sie ebenfalls verbal serviert. So einfach, so effektiv.
Die großen Herausforderungen liegen aktuell aber in den Assistenzfunktionen. Können heute per Assistent bereits Produkte digital bestellt und Termine reserviert werden, sollen die Systeme zukünftig noch viel mehr Alltagshandlungen für uns übernehmen. Dabei sollen sie idealerweise auch unsere Präferenzen kennen – und unsere „menschliche“ Ausdrucksweise ohne Missverständnisse verstehen. „Tisch für fünf reservieren“ kann sowohl Uhrzeit als auch Personenanzahl bedeuten. Das System soll dann aus dem Kontext die richtige Bedeutung verstehen.
Dazu werden die Konversationen mit Sprachassistenten immer natürlicher. Die Systeme verstehen und generieren zunehmend natürliche Sprache, wodurch die Konversation einen Flow bekommt und sich an die „menschliche“ Sprechweise anpasst. Google präsentiert mit „Google Duplex“ eine Technologie, mit der reale Tasks (wie eine Restaurantbuchung) durch künstliche Assistenten via Telefon ausgeführt werden können – und dabei „natürlich“ klingen.
Die schnelle, möglicherweise undeutliche, nicht lineare natürliche Sprechweise von Menschen zu verstehen und daraus Befehle zu identifizieren ist eine herausragende Leistung der Entwickler. Zusätzlich beeindruckend ist die Leistung, Antworten zu verstehen und darauf zu reagieren, was weit anspruchsvoller ist als die Reaktion auf ein klares Sprachkommando.
Große Anbieter wie Google treiben ihr Machine Learning natürlich durch die großen Datenmengen voran, die ihnen schon jetzt zur Verfügung stehen.
„OK Google: wo geht die Reise hin?“
Google und Amazon führen momentan das Feld der digitalen Sprachassistenten an – aus China allerdings holen Alibaba mit Tmall Genie und Xiaomi mit dem Mi AI Speaker rasant auf. Apple und Microsoft sind mit Siri bzw. Cortana ebenfalls am Start.
Fakt ist: immer mehr Menschen nutzen Voice Search – und werden sich schnell an die digitalen Assistenzfunktionen gewöhnen. Da Menschen die verbale Kommunikation kennen und beherrschen, wird die Hemmschwelle bei der Sprachsteuerung rasch sinken.
User werden sich zwischen großen Plattformen und offenen Systemen entscheiden müssen. Denn große Player wie Amazon und Google vertreiben zunehmend eigene Produkte und Services – die dann vermutlich auch von den hauseigenen Devices genutzt werden. Fraglich ist, inwieweit die großen Plattformen es auch anderen Anbietern – und damit auch dem direkten Mitbewerb – ermöglichen, ihre Produkte und Services zu integrieren.
Relevanz können digitale Assistenten auch für Menschen gewinnen, für die das Smartphone nicht wichtigster Wegbegleiter ist: gerade für alte Menschen oder Personen mit körperlichen oder gesundheitlichen Einschränkungen können die Devices eine Alltagshilfe. Auch Kinder gehen schon früh routiniert mit elektrischen Geräten um. Auch für sie können digitale Assistenten eine Unterstützung bedeuten – die sinnvolle Aufsicht durch „die Großen“ vorausgesetzt.
Wer jetzt schon das Gefühl hat, dass zu viele Daten gesammelt werden, wird mit einem digitalen Assistenten wenig Freude haben. Ein Assistent wird um so besser, je mehr er über Bedürfnisse und Vorlieben Bescheid weiß. Haben die großen Anbieter bisher primär online Daten gesammelt, werden hier nun immer mehr Aktivitäten erfassbar.
Was vor einigen Jahren noch nach Science Fiction geklungen haben mag, nimmt nun sehr reale Form an. In welche Lebensbereiche digitale Assistenten noch einziehen werden – und welche Risiken damit einhergehen – ist heute schwer einzugrenzen. Die Möglichkeiten scheinen endlos.
* Jan Königstätter war technischer Leiter bei immodirekt.at, und Leiter Webanalyse, Suchmaschinenoptimierung und Suchmaschinenmarketing bei DerStandard.at. 2014 gründete er zusammen mit Markus Inzinger die Otago Online Consulting GmbH. Seit 2017 ist er auch Certified Google Trainer.
Be the first to comment