Nvidia „Maxine“: Bessere Video-Telefonie dank KI

Stabilere Videokonferenzen ohne Datenflut stellt der Grafikchip-Hersteller Nvidia mit der KI-Plattform "Maxine" in Aussicht. Möglich macht das eine Kompression mithilfe neuronaler Netze anstelle eines klassischen Video-Codecs. [...]

Schlüsselpunkte sollen künftig für kleine Datenströme sorgen.
Schlüsselpunkte sollen künftig für kleine Datenströme sorgen. (c) Nvidia

Die neue KI-Suite von Nvidia sorgt ferner dafür, dass es aussieht, als würden Nutzer auch wirklich direkt in die Kamera blicken und wartet zudem auch mit Fun-Features wie virtuellen Hairstyles für den eigenen Video-Avatar auf.

„Wir wollen mithilfe von KI ein besseres Videokommunikationserlebnis schaffen, damit selbst Menschen, denen nur sehr geringe Bandbreiten zur Verfügung stehen, von Sprach- auf Video-Anrufe umsteigen können“, sagt Nvidia-Forscher Arun Mallya. Der Spezialist für Computersehen und seine Kollegen setzen dazu darauf, Videos nicht klassisch mittels Codec zu komprimieren. Statt voller Bilder schickt Maxine einen kompakten Datenstrom, der im Prinzip nur bestimmte Schlüsselbereiche des Gesichts nahe Augen, Mund und Nase umfasst.

Um daraus ein komplettes Bild zu rekonstruieren, kommt auf dem Gerät des Empfängers ein sogenanntes Generative Adversarial Network (GAN) zum Einsatz. Im Prinzip spielen dabei zwei neuronale Netze ein Nullsummenspiel, um aus einem ersten Bild und den folgenden Schlüssel-Datenpunkten weitere Bilder ideal zu rekonstruieren. Dazu genügt die Rechenleistung der GPU des Empfängers. Der unbedingt nötige Datenstrom hat laut Nvidia bereits jetzt nur ein Zehntel der Bandbreite eines normalen Video-Telefonats und könne in Zukunft noch um Größenordnungen geringer ausfallen. Bei gleicher Bandbreitennutzung wiederum wirkt das Maxine-Video viel schärfer.

Mehr als nur Daten sparen

Schon die geringere Bandbreite allein dürfte Maxine attraktiv für all jene machen, die mobiles Datenvolumen sparen wollen. Doch verspricht die KI-Suite mehr als nur das. „Mit Computersehen können wir den Kopf einer Person über ein breites Spektrum an Winkeln erkennen, und wir denken, das wird den Menschen helfen, natürlichere Gespräche zu führen“, sagt Nvidia-Forscher Ting-Chun Wang. Denn normalerweise achten User beim Videotelefonat auf das Video des Gegenübers. Die KI kann das Bild so korrigieren, dass es wirkt, als sähen Nutzer stattdessen direkt in die Kamera – es also eher so wirkt, als gelte ihre Aufmerksamkeit wirklich dem Gesprächspartner.

Nvidia demonstriert auch gleich, dass Maxine auch dann funktioniert, wenn User aufgrund der COVID-19-Pandemie einen Mund-Nasen-Schutz tragen. Auch Brillen, Hüte oder Kopfhörer sind dem Unternehmen zufolge kein Hindernis. Im Gegenteil: Es ist sogar möglich, den eigenen Video-Avatar mit digitaler Kleidung oder einem neuen virtuellen Haarschnitt zu verändern.

Sie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Mehr Artikel

News

Bad Bots werden immer menschenähnlicher

Bei Bad Bots handelt es sich um automatisierte Softwareprogramme, die für die Durchführung von Online-Aktivitäten im großen Maßstab entwickelt werden. Bad Bots sind für entsprechend schädliche Online-Aktivitäten konzipiert und können gegen viele verschiedene Ziele eingesetzt werden, darunter Websites, Server, APIs und andere Endpunkte. […]

Frauen berichten vielfach, dass ihre Schmerzen manchmal jahrelang nicht ernst genommen oder belächelt wurden. Künftig sollen Schmerzen gendersensibel in 3D visualisiert werden (c) mit KI generiert/DALL-E
News

Schmerzforschung und Gendermedizin

Im Projekt „Embodied Perceptions“ unter Leitung des AIT Center for Technology Experience wird das Thema Schmerzen ganzheitlich und gendersensibel betrachtet: Das Projektteam forscht zu Möglichkeiten, subjektives Schmerzempfinden über 3D-Avatare zu visualisieren. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*