Nvidia „Maxine“: Bessere Video-Telefonie dank KI

Stabilere Videokonferenzen ohne Datenflut stellt der Grafikchip-Hersteller Nvidia mit der KI-Plattform "Maxine" in Aussicht. Möglich macht das eine Kompression mithilfe neuronaler Netze anstelle eines klassischen Video-Codecs. [...]

Schlüsselpunkte sollen künftig für kleine Datenströme sorgen.
Schlüsselpunkte sollen künftig für kleine Datenströme sorgen. (c) Nvidia

Die neue KI-Suite von Nvidia sorgt ferner dafür, dass es aussieht, als würden Nutzer auch wirklich direkt in die Kamera blicken und wartet zudem auch mit Fun-Features wie virtuellen Hairstyles für den eigenen Video-Avatar auf.

„Wir wollen mithilfe von KI ein besseres Videokommunikationserlebnis schaffen, damit selbst Menschen, denen nur sehr geringe Bandbreiten zur Verfügung stehen, von Sprach- auf Video-Anrufe umsteigen können“, sagt Nvidia-Forscher Arun Mallya. Der Spezialist für Computersehen und seine Kollegen setzen dazu darauf, Videos nicht klassisch mittels Codec zu komprimieren. Statt voller Bilder schickt Maxine einen kompakten Datenstrom, der im Prinzip nur bestimmte Schlüsselbereiche des Gesichts nahe Augen, Mund und Nase umfasst.

Um daraus ein komplettes Bild zu rekonstruieren, kommt auf dem Gerät des Empfängers ein sogenanntes Generative Adversarial Network (GAN) zum Einsatz. Im Prinzip spielen dabei zwei neuronale Netze ein Nullsummenspiel, um aus einem ersten Bild und den folgenden Schlüssel-Datenpunkten weitere Bilder ideal zu rekonstruieren. Dazu genügt die Rechenleistung der GPU des Empfängers. Der unbedingt nötige Datenstrom hat laut Nvidia bereits jetzt nur ein Zehntel der Bandbreite eines normalen Video-Telefonats und könne in Zukunft noch um Größenordnungen geringer ausfallen. Bei gleicher Bandbreitennutzung wiederum wirkt das Maxine-Video viel schärfer.

Mehr als nur Daten sparen

Schon die geringere Bandbreite allein dürfte Maxine attraktiv für all jene machen, die mobiles Datenvolumen sparen wollen. Doch verspricht die KI-Suite mehr als nur das. „Mit Computersehen können wir den Kopf einer Person über ein breites Spektrum an Winkeln erkennen, und wir denken, das wird den Menschen helfen, natürlichere Gespräche zu führen“, sagt Nvidia-Forscher Ting-Chun Wang. Denn normalerweise achten User beim Videotelefonat auf das Video des Gegenübers. Die KI kann das Bild so korrigieren, dass es wirkt, als sähen Nutzer stattdessen direkt in die Kamera – es also eher so wirkt, als gelte ihre Aufmerksamkeit wirklich dem Gesprächspartner.

Nvidia demonstriert auch gleich, dass Maxine auch dann funktioniert, wenn User aufgrund der COVID-19-Pandemie einen Mund-Nasen-Schutz tragen. Auch Brillen, Hüte oder Kopfhörer sind dem Unternehmen zufolge kein Hindernis. Im Gegenteil: Es ist sogar möglich, den eigenen Video-Avatar mit digitaler Kleidung oder einem neuen virtuellen Haarschnitt zu verändern.

Sie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Mehr Artikel

News

Große Sprachmodelle und Data Security: Sicherheitsfragen rund um LLMs

Bei der Entwicklung von Strategien zur Verbesserung der Datensicherheit in KI-Workloads ist es entscheidend, die Perspektive zu ändern und KI als eine Person zu betrachten, die anfällig für Social-Engineering-Angriffe ist. Diese Analogie kann Unternehmen helfen, die Schwachstellen und Bedrohungen, denen KI-Systeme ausgesetzt sind, besser zu verstehen und robustere Sicherheitsmaßnahmen zu entwickeln. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*