Stabilere Videokonferenzen ohne Datenflut stellt der Grafikchip-Hersteller Nvidia mit der KI-Plattform "Maxine" in Aussicht. Möglich macht das eine Kompression mithilfe neuronaler Netze anstelle eines klassischen Video-Codecs. [...]
Die neue KI-Suite von Nvidia sorgt ferner dafür, dass es aussieht, als würden Nutzer auch wirklich direkt in die Kamera blicken und wartet zudem auch mit Fun-Features wie virtuellen Hairstyles für den eigenen Video-Avatar auf.
„Wir wollen mithilfe von KI ein besseres Videokommunikationserlebnis schaffen, damit selbst Menschen, denen nur sehr geringe Bandbreiten zur Verfügung stehen, von Sprach- auf Video-Anrufe umsteigen können“, sagt Nvidia-Forscher Arun Mallya. Der Spezialist für Computersehen und seine Kollegen setzen dazu darauf, Videos nicht klassisch mittels Codec zu komprimieren. Statt voller Bilder schickt Maxine einen kompakten Datenstrom, der im Prinzip nur bestimmte Schlüsselbereiche des Gesichts nahe Augen, Mund und Nase umfasst.
Um daraus ein komplettes Bild zu rekonstruieren, kommt auf dem Gerät des Empfängers ein sogenanntes Generative Adversarial Network (GAN) zum Einsatz. Im Prinzip spielen dabei zwei neuronale Netze ein Nullsummenspiel, um aus einem ersten Bild und den folgenden Schlüssel-Datenpunkten weitere Bilder ideal zu rekonstruieren. Dazu genügt die Rechenleistung der GPU des Empfängers. Der unbedingt nötige Datenstrom hat laut Nvidia bereits jetzt nur ein Zehntel der Bandbreite eines normalen Video-Telefonats und könne in Zukunft noch um Größenordnungen geringer ausfallen. Bei gleicher Bandbreitennutzung wiederum wirkt das Maxine-Video viel schärfer.
Mehr als nur Daten sparen
Schon die geringere Bandbreite allein dürfte Maxine attraktiv für all jene machen, die mobiles Datenvolumen sparen wollen. Doch verspricht die KI-Suite mehr als nur das. „Mit Computersehen können wir den Kopf einer Person über ein breites Spektrum an Winkeln erkennen, und wir denken, das wird den Menschen helfen, natürlichere Gespräche zu führen“, sagt Nvidia-Forscher Ting-Chun Wang. Denn normalerweise achten User beim Videotelefonat auf das Video des Gegenübers. Die KI kann das Bild so korrigieren, dass es wirkt, als sähen Nutzer stattdessen direkt in die Kamera – es also eher so wirkt, als gelte ihre Aufmerksamkeit wirklich dem Gesprächspartner.
Nvidia demonstriert auch gleich, dass Maxine auch dann funktioniert, wenn User aufgrund der COVID-19-Pandemie einen Mund-Nasen-Schutz tragen. Auch Brillen, Hüte oder Kopfhörer sind dem Unternehmen zufolge kein Hindernis. Im Gegenteil: Es ist sogar möglich, den eigenen Video-Avatar mit digitaler Kleidung oder einem neuen virtuellen Haarschnitt zu verändern.
Be the first to comment