8. April 2025

Nvidia „Maxine“: Bessere Video-Telefonie dank KI

Stabilere Videokonferenzen ohne Datenflut stellt der Grafikchip-Hersteller Nvidia mit der KI-Plattform "Maxine" in Aussicht. Möglich macht das eine Kompression mithilfe neuronaler Netze anstelle eines klassischen Video-Codecs. [...]

Schlüsselpunkte sollen künftig für kleine Datenströme sorgen. (c) Nvidia

Die neue KI-Suite von Nvidia sorgt ferner dafür, dass es aussieht, als würden Nutzer auch wirklich direkt in die Kamera blicken und wartet zudem auch mit Fun-Features wie virtuellen Hairstyles für den eigenen Video-Avatar auf.

„Wir wollen mithilfe von KI ein besseres Videokommunikationserlebnis schaffen, damit selbst Menschen, denen nur sehr geringe Bandbreiten zur Verfügung stehen, von Sprach- auf Video-Anrufe umsteigen können“, sagt Nvidia-Forscher Arun Mallya. Der Spezialist für Computersehen und seine Kollegen setzen dazu darauf, Videos nicht klassisch mittels Codec zu komprimieren. Statt voller Bilder schickt Maxine einen kompakten Datenstrom, der im Prinzip nur bestimmte Schlüsselbereiche des Gesichts nahe Augen, Mund und Nase umfasst.

Um daraus ein komplettes Bild zu rekonstruieren, kommt auf dem Gerät des Empfängers ein sogenanntes Generative Adversarial Network (GAN) zum Einsatz. Im Prinzip spielen dabei zwei neuronale Netze ein Nullsummenspiel, um aus einem ersten Bild und den folgenden Schlüssel-Datenpunkten weitere Bilder ideal zu rekonstruieren. Dazu genügt die Rechenleistung der GPU des Empfängers. Der unbedingt nötige Datenstrom hat laut Nvidia bereits jetzt nur ein Zehntel der Bandbreite eines normalen Video-Telefonats und könne in Zukunft noch um Größenordnungen geringer ausfallen. Bei gleicher Bandbreitennutzung wiederum wirkt das Maxine-Video viel schärfer.

Mehr als nur Daten sparen

Schon die geringere Bandbreite allein dürfte Maxine attraktiv für all jene machen, die mobiles Datenvolumen sparen wollen. Doch verspricht die KI-Suite mehr als nur das. „Mit Computersehen können wir den Kopf einer Person über ein breites Spektrum an Winkeln erkennen, und wir denken, das wird den Menschen helfen, natürlichere Gespräche zu führen“, sagt Nvidia-Forscher Ting-Chun Wang. Denn normalerweise achten User beim Videotelefonat auf das Video des Gegenübers. Die KI kann das Bild so korrigieren, dass es wirkt, als sähen Nutzer stattdessen direkt in die Kamera – es also eher so wirkt, als gelte ihre Aufmerksamkeit wirklich dem Gesprächspartner.

Nvidia demonstriert auch gleich, dass Maxine auch dann funktioniert, wenn User aufgrund der COVID-19-Pandemie einen Mund-Nasen-Schutz tragen. Auch Brillen, Hüte oder Kopfhörer sind dem Unternehmen zufolge kein Hindernis. Im Gegenteil: Es ist sogar möglich, den eigenen Video-Avatar mit digitaler Kleidung oder einem neuen virtuellen Haarschnitt zu verändern.

Sie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Inhalt entsperren Erforderlichen Service akzeptieren und Inhalte entsperren

So werden Unternehmen autonom und resilient

8. April 2025

Ein Unternehmen, in dem viele Prozesse automatisiert ablaufen, ohne menschliche Aufsicht, und das sich dabei kontinuierlich selbst optimiert? Fortgeschrittene KI und Automatisierungswerkzeuge liefern die dafür notwendige technische Grundlage, doch die Umsetzung ist in der Regel mit einigen Herausforderungen verbunden. […]

Grundlegende Metriken der Datenwiederherstellung: RPO und RTO verständlich gemacht

8. April 2025 Angela Heindl-Schober *

Wenn es um die Geschäftskontinuität geht, stechen zwei Schlüsselmetriken hervor: Recovery Point Objective (RPO) und Recovery Time Objective (RTO). Oft werden diese verwechselt oder die Diskussion dreht sich um RPO versus RTO. Beide Metriken sind jedoch für die Entwicklung effektiver Datenschutzstrategien und die Minimierung von Unterbrechungen und Datenverlusten unerlässlich. […]

Demystify hilft bei der API-Dokumentation

8. April 2025 Patrick Hediger *

Mit dem Open-Source-Projekt Demystify können Entwickler API-Dokumentationen in Echtzeit automatisiert erstellen. Das Tool verspricht eine einfache Bedienung und hohe Genauigkeit. […]

Nadine Riederer, CEO von Avision. (c) Avision

So vergeigt man die Übernahme einer Alt-Software

8. April 2025 Nadine Riederer*

Wenn ein IT-Dienstleister die Betreuung einer Legacy-Software übernimmt, kann er so einiges falsch machen. Avision zeigt auf, wie er die Übernahme zuverlässig in den Sand setzt. […]

Drohnen, die autonom und ohne GPS navigieren können, wären in der Lage kritische Infrastruktur wie Brücken oder Strommasten selbstständig zu inspizieren. (c) Fikri Rasyid / unsplash

Wie Drohnen autonom fliegen lernen

7. April 2025 pi/kdl

Von wirklich selbstständigen Robotern, die durch eine komplexe und sich verändernde Umwelt navigieren können, sind wir noch weit entfernt. Neue Ansätze mit KI bieten eine Chance, diese Vorstellung ein Stück weit Realität werden zu lassen. Jan Steinbrener experimentiert an der Universität Klagenfurt mit Drohnen, die genau das versuchen. […]

Andrew O’Dower, Vice President, Product Management für Voice und Voice AI bei Twilio (c) Twilio

Klein, spezialisiert, effizient: Small Language Modelle gewinnen an Bedeutung

7. April 2025 Andrew O'Dower*

Neben den Large Language Models (LLM), die einen regelrechten KI-Boom ausgelöst haben, rücken nun vermehrt Small Language Models (SLM) vor allem für Unternehmen in den Fokus. Andrew O’Dower, Leiter des Bereichs Product Management für Voice und Voice AI bei Twilio, erklärt was es damit auf sich hat. […]

Christina Decker, Director Strategic Channels Europe bei Trend Micro (c) Trend Micro

Wie der Channel die tickende Zeitbombe „Compliance-Risiko“ entschärfen kann

7. April 2025 Christina Decker*

Cybersicherheitsregulatoren hatten ein geschäftiges Jahr 2024. Zuerst kam die NIS2-Richtlinie, deren Umsetzungsfrist Mitte Oktober ablief. Nur wenige Monate später trat in der gesamten EU der lang erwartete Digital Operational Resilience Act (DORA) in Kraft. Beide Regelwerke wurden dringend benötigt, haben aber auch enormen Druck auf Unternehmen in der Region ausgeübt. Besonders KMU spüren diesen Druck. […]

6 von 10 Österreichern sehen kaum Auswirkungen durch KI – aber jeder 25. Arbeitnehmer erwartet Jobverlust

7. April 2025 pi/kdl

Laut EU AI-Act müssen seit 2. Februar 2025 alle Mitarbeitenden, die Künstliche Intelligenz (KI) nutzen, entwickeln oder betreiben, über ausreichende KI-Kompetenzen verfügen. Das hat die „Employer Brand Research 2025“ des internationalen Personaldienstleisters Randstad als Schwerpunktthema untersucht. […]

Cyber Dominance: Digitale Abhängigkeit ist das neue Geschäftsrisiko

7. April 2025

Bei Cyber Dominance geht es um die Fähigkeit von Herstellern digitaler Produkte, auch nach dem Kauf dauerhaft Zugriff auf Systeme und Informationen ihrer Kunden zu behalten. Eine Form der Kontrolle, die tief in technische Infrastrukturen eingreift – oft unbemerkt und ungefragt. Diese Art der digitalen Abhängigkeit ist längst Realität – und sie ist eines der größten unterschätzten Geschäftsrisiken unserer Zeit. […]