16. April 2025

Multimodale KI ist im Kommen: Zentrale Überlegungen für die nächste Welle der Datenintelligenz

Multimodale KI läutet eine neue Ära der Datenintelligenz und Reaktionsfähigkeit ein. Dieser Paradigmenwechsel, der durch die Integration von natürlicher Sprache, Sehen und multisensorischer Verarbeitung in KI-Systeme gekennzeichnet ist, verspricht eine Neudefinition der Art und Weise, wie diese Werkzeuge die Welt um sie herum verstehen, mit ihr interagieren und navigieren. [...]

Zwischenablage01 — Während die monomodale KI durch spezifische Aufgaben in Bezug auf einen Datentyp gekennzeichnet ist, ermöglicht die multimodale KI ein umfassenderes Verständnis und eine umfassendere Interaktion, indem sie modusübergreifende Informationen nutzt. (c) stock.adobe.com/kaznadey

Während die monomodale KI durch spezifische Aufgaben in Bezug auf einen Datentyp gekennzeichnet ist, ermöglicht die multimodale KI ein umfassenderes Verständnis und eine umfassendere Interaktion, indem sie modusübergreifende Informationen nutzt. Dies ermöglicht der KI kontextbezogenes, adaptives und menschenähnliches Verhalten und eröffnet neue Möglichkeiten für Anwendungen, die ein multimodales Verständnis erfordern. Multimodale KI bringt jedoch auch eine höhere Komplexität bei der Modellentwicklung, der Datenintegration und ethischen Überlegungen mit sich als monomodale Systeme.

Die rasante Entwicklung von KI-Systemen in jüngster Zeit könnte erhebliche Auswirkungen auf die Fähigkeiten von Unternehmen haben, insbesondere angesichts der Zahl von Organisationen, die KI bereits einsetzen. Schätzungen zufolge haben im Jahr 2023 73 Prozent der Unternehmen in den USA KI in irgendeiner Form eingesetzt (PwC). Weltweit betrachtet wird erwartet, dass der globale KI-Markt bis 2028 die Marke von 1 Billion US-Dollar überschreiten wird (Statista). Eine repräsentative Studie der DZ Bank, aus der das Handelsblatt exklusiv vorab zitierte, zeigt, dass jetzt auch der bisher zögerliche Mittelstand (KMU) verstärkt auf KI setzt. Demnach setzt fast die Hälfte der KMU bereits eine KI ein.

Wir werden eine noch stärkere Verlagerung hin zur Nutzung multimodaler KI erleben, die eine Entwicklung von der generativen KI hin zu anpassungsfähigeren und intelligenteren Systemen signalisiert, die Informationen aus verschiedenen Quellen verarbeiten können. Wie sieht diese Art von KI also heute in der „realen Welt“ aus und was sind die wichtigsten Punkte, die bei ihrer Implementierung zu beachten sind?

Multimodal im Einsatz

Mit Blick auf die Zukunft der multimodalen KI sind bedeutende Fortschritte bei kontextsensitiven Chatbots und virtuellen Assistenten zu erwarten, die auf visuellen Informationen basieren. So werden Videos – durch Skripte und mündliche Anweisungen gesteuert – automatisch erzeugt, und neue immersive Multimedia-Erlebnisse werden durch die Interaktion und die Interessen der Anwender beeinflusst dynamisch erschaffen und modifiziert. In der AEC-Branche wird multimodale KI beispielsweise eingesetzt, um intelligente Systeme zu entwickeln, die Gebäudedatenmodelle (BIM), Satellitenbilder und Sensordaten analysieren und interpretieren können. So sollen Standortauswahl, Entwurf und Bauprozesse optimiert werden, was zu effizienteren und nachhaltigeren Projekten führt.

Einige dieser multimodalen KI-Modelle im Einsatz sind derzeit GPT-4V, Google Gemini, Meta ImageBind und andere. Durch die Nutzung sich ergänzender Stärken verschiedener Modalitäten – von Text und Bildern bis hin zu Audio- und Sensordaten – schaffen diese Systeme umfassendere, kontextbezogene Darstellungen ihrer Umgebung.

Die Auswirkungen der multimodalen KI gehen weit über die Technologie hinaus. Sie hat bereits begonnen, Unterhaltungsindustrie, Marketing und E-Commerce zu beeinflussen. In diesen Bereichen schafft die Integration verschiedener Kommunikationsformen – Text, Bild, Sprache – personalisierte, immersive Erlebnisse. Von interaktiver Werbung bis hin zu virtuellen Einkaufsassistenten hat die multimodale KI durchaus Potenzial, das Nutzerverhalten neu zu definieren.

Während diese Art von KI wächst und zahlreiche Vorteile bietet, müssen wichtige Aspekte wie Integration und Qualität, Ethik und Datenschutz sowie Modellkomplexität und Skalierbarkeit berücksichtigt werden.

Datenintegration und Datenqualität

Die Qualität der Daten war schon immer entscheidend, um gute Ergebnisse bei KI-Projekten zu erzielen, und das ist bei multimodaler KI nicht anders. Die Kombination von Daten aus verschiedenen Modalitäten kann aufgrund unterschiedlicher Formate, Maßstäbe und Ungenauigkeiten eine Herausforderung darstellen.

Unternehmen stehen vor der Aufgabe, die Komplexität der Bereinigung, Erfassung, Speicherung und Konsolidierung ihrer unstrukturierten Daten zu bewältigen und gleichzeitig den Zugriff auf die Daten mit genau definierten Berechtigungen zu ermöglichen. Sobald diese Daten erfolgreich integriert und multimodal bereinigt sind, können multimodale KI-Projekte erfolgreich werden. Wichtig ist zudem eine einheitliche Plattform für KI-Initiativen und Dateneinblicke.

Branchen wie die Medien und das Verlagswesen sehen bereits weitreichende Möglichkeiten für die Erstellung und Veröffentlichung von Inhalten durch die Verwendung von multimodaler KI. Sie sind sich der potenziellen Risiken bewusst, wie z. B. dass bestimmte Bilder oder böswillige Anweisungen ein unerwartetes Verhalten in einem Bild-zu-Text-KI-System auslösen können. Es kann auch zur „Prompt-Injektion“ kommen, bei der sabotierende Anweisungen subtil in das Prompt-Bild eingespeist werden, um das KI-System zu untergraben oder anzugreifen. Diese Szenarien sind ein weiteres Argument dafür, dass es schon für frühe Anwender umfassende Daten- und Risikomanagementrichtlinien geben muss, bevor sie neue Anwendungen testen und entwickeln.

Überlegungen zu Ethik und Datenschutz

Multimodale KI-Systeme können sensible Daten aus verschiedenen Quellen enthalten, was Fragen zu Datenschutz und Ethik aufwirft. Darüber hinaus ist die Aufrechterhaltung der Datenqualität von entscheidender Bedeutung – selbst bei wesentlich größeren und vielfältigeren Datensätzen, die bei multimodalen Modellen wahrscheinlich sind -, um Verzerrungen und Ungenauigkeiten zu vermeiden, die durch einzelne Modalitäten entstehen können.

Es ist wichtig, Mechanismen zur Anonymisierung von Daten, die Verwaltung von Einwilligungen und die Erkennung von Vorurteilen einzubauen, um die ethische Nutzung multimodaler KI-Technologien zu gewährleisten. Eine Maßnahme, die viele Unternehmen in Betracht ziehen, ist zum Beispiel eine Ethikrichtlinie für den Einsatz von KI-Modellen. Diese Richtlinie sollte aber auch regelmäßig überprüft werden, um sicherzustellen, dass sie wie beabsichtigt funktioniert.

Modellkomplexität und Skalierbarkeit

Schließlich sind multimodale KI-Modelle tendenziell komplexer als ihre monomodalen Gegenstücke, da sie verschiedene Arten von Daten verarbeiten müssen. Die gestiegene Komplexität bei gleichzeitiger Wahrung von Skalierbarkeit und Effizienz zu bewältigen, stellt eine große Herausforderung dar.

Um dieses Problem zu lösen, können Unternehmen Architekturen und Algorithmen entwickeln, die multimodale Daten effizient und ohne Leistungseinbußen verarbeiten können. Ein Beispiel dafür ist die strikte Verwendung qualitativ hochwertiger Trainingsdaten und -methoden im Gegensatz zur einfachen Skalierung von Modellen. Das Phi-2-Modell von Microsoft hat gezeigt, was mit diesem Ansatz erreicht werden kann.

Letztlich bedeutet multimodale KI einen grundlegenden Wandel in der Art und Weise, wie wir an KI herangehen. Wenn Entwickler diese Herausforderungen bewältigen, können sie robustere und zuverlässigere multimodale KI-Systeme schaffen, die verschiedene Informationsquellen effektiv nutzen und erfolgreich zu verwertbaren Ergebnissen führen.

* Christoph Ertl ist Solutions Architect bei Nasuni.

Lohnende IT-Jobs

15. April 2025 Daniel Bader *

Die rasante Digitalisierung, stetig wachsende Datenmengen und künstliche Intelligenz (KI): Diese Entwicklungen verschärfen den ohnehin bestehenden Fachkräftemangel in der hiesigen IT-Branche. Die folgenden fünf IT-Jobs sind deshalb besonders gefragt. […]

„Gray Bots“ greifen Websites bis zu eine halbe Million Mal pro Tag an

15. April 2025

Die Threat-Analysten von Barracuda haben im Rahmen eines neuen Reports das hartnäckige Verhalten von Bots mit generativer KI (Gen AI) hervorgehoben, die Teil einer neueren Kategorie von Bots sind, die Barracuda als „Gray Bots“ bezeichnet. […]

5 Gründe für den Einsatz von Multicloud-Plattformen für File Storage

15. April 2025

Menschen, Anwendungen und Maschinen generieren Daten in nie dagewesener Geschwindigkeit. Die meisten dieser Daten sind unstrukturiert und werden auf File Storage an unterschiedlichen Standorten und in verschiedenen Clouds abgelegt. Für Unternehmen ergeben sich daraus zahlreiche Herausforderungen bei der Nutzung ihrer Datenschätze. […]

Robuste Cyberresilienz für kritische Infrastrukturen

15. April 2025 Holger Fischer *

KRITIS-Betreiber stehen verstärkt im Fadenkreuz von Cyberkriminellen, da Versorgungsnetzwerke, Kommunikations- und Verkehrssysteme sowie staatliche und medizinische Einrichtungen aufgrund ihrer hohen Bedeutung lukrative Angriffsziele sind. Ein mehrschichtiger Sicherheitsansatz, bekannt als Defense-in-Depth, minimiert die Abhängigkeit von einem einzigen Ausfallpunkt. […]

Smart Storage: Wie KI Stromspeicher intelligent macht

15. April 2025 Simon Müller *

Die Zukunft von Smart Storage wird maßgeblich durch die Fortschritte in der künstlichen Intelligenz geprägt. KI-gestützte Systeme sind in der Lage, den Stromverbrauch innerhalb von Haushalten erheblich zu optimieren. […]

Viele Nutzer denken bei Technologiefragen pragmatisch: Innovation, Sicherheit und Zugänglichkeit stehen im Vordergrund. (c) Pexels

Amerikas Tech-Streit: Wähler sehen Vorteile, fürchten aber Regulierung

15. April 2025 Wolfgang Franz

Eine aktuelle Umfrage unter registrierten US-Wählerinnen und -Wählern zeigt ein insgesamt positives Bild der amerikanischen Tech-Branche – gleichzeitig lehnt die Mehrheit regulatorische Eingriffe wie die Zerschlagung großer Tech-Unternehmen ab. ITWelt.at hat sich die Ergebnisse der Umfrage angesehen. […]

Diese Partnerschaft ist ein wichtiger Schritt für Redgate, um die Präsenz in der DACH-Region zu stärken und die Aktivitäten auf dem PostgreSQL-Markt weiter auszubauen. (c) Pexels

Redgate baut DACH-Präsenz durch Partnerschaft mit CYBERTEC aus

14. April 2025 pi/cb

Redgate, ein Anbieter von DevOps-Lösungen für holistisches Datenbankmanagement, hat eine strategische Partnerschaft mit CYBERTEC, einem Experten für PostgreSQL-Lösungen, geschlossen. Ziel ist es, Unternehmen in der DACH-Region bei der Einführung und Migration auf das Open-Source-Datenbanksystem PostgreSQL zu unterstützen. […]

So gewinnen Sie den Kampf gegen Schatten-IT

14. April 2025 Benedikt Brand *

Die modernsten Sicherheitsmaßnahmen können nicht greifen, wenn Mitarbeitende im Unternehmen eigene Lösungen, Workarounds oder Consumer-Apps nutzen, die nicht autorisiert und in die Unternehmens-IT eingebunden sind. […]

Tipps für die Digitalisierung des Office Management

14. April 2025 Simon Müller *

Die Digitalisierung des Office Management ist ein Muss für mehr Effizienz in einem Unternehmen. Dieser Prozess bringt nicht nur neue Fallstricke, sondern auch einige Möglichkeiten mit sich, um Arbeitsabläufe zu optimieren und die Zusammenarbeit zu verbessern. […]