KI und ML: Cloud oder On-Premises?

Bei Cloud-Services für KI und Machine Learning müssen Kosten und Governance in Einklang gebracht werden. [...]

„Skill Gap“ kompensieren

Angesichts des Mangels an IT-Fachleuten, vor allem von Data Scientists, ist der einfachere Zugang zu KI- und Machine-Learning-Know-how über eine Cloud ein weiterer wichtiger Punkt.

Den Ernst der Lage zeigt ein Blick auf die Lage im DACH-Raum: Die Schweiz rechnet damit, dass im Jahr 2030 an die 40 000 IT-Fachleute fehlen. In Deutschland wiederum waren Ende 2022 nach Angaben des Digitalverbands Bitkom rund 140 000 IT-Stellen unbesetzt, in Österreich fehlen an die 30 000 Spezialisten.

„Ein Vorteil von Cloud-basierten KI-Diensten ist, dass sie dazu beitragen können, den ‘Skill Gap‘, in der KI-Branche zu schließen“, unterstreicht Markus Hacker von Nvidia.

„Viele Unternehmen verfügen möglicherweise nicht über das interne Fachwissen, das für den Aufbau und die Wartung einer KI-Infrastruktur erforderlich ist.“ Nutzer von Cloud-Diensten könnten jedoch vom Fachwissen von Cloud-Anbietern und deren Partnern profitieren, wenn sie KI-Anwendungen entwickeln.

Das reicht jedoch nicht aus, so Hacker. Wichtig sei zudem, dass Unternehmen verstärkt in KI-Ausbildung- und -Training investieren. Nur dann seien Beschäftigte in der Lage, KI-basierte Anwendungen zu nutzen und zu entwickeln.

Mittlerweile bieten die Cloud-Serviceprovider sowie viele ihrer Partner entsprechende Kurse an, AWS beispielsweise über die AWS Academy, Microsoft im Rahmen von „Azure AI Fundamentals“.

Natürlich können auch solche Programme nicht ad hoc den Mangel an KI- und Datenspezialisten beseitigen. Aber letztlich führt für Unternehmen kein Weg daran vorbei, die eigenen Mitarbeiter mithilfe solcher Angebote für das KI-Zeitalter fit zu machen.

Eine Frage der Kosten

In den vergangenen Monaten hat sich die Diskussion über die Kosten von Cloud-Services zugespitzt. So sehen Analysten wie David Linthicum vom Beratungshaus Deloitte wegen der Kosten bei KI- und ML-Workloads einen Trend zur „Repatriierung“ in Unternehmensrechenzentren.

Und laut der Studie „CIO Pulse: 2023 Budgets & Priorities“ des schweizerischen IT-Hauses SoftwareOne sind für 41 Prozent der CIOs Preiserhöhungen der Cloud-Serviceprovider der größte Faktor, der die IT-Ausgaben nach oben treibt – vor zu schnell anwachsenden Workloads und einer verstärkten Nutzung von Cloud-Ressourcen (jeweils 40 %), inklusive KI- und Machine-Learning-Services.

„Wer geglaubt hat, allein aus Kostengründen in die Cloud gehen zu müssen, erlebt oft eine Überraschung“, warnt Florian Maximilian Lauck-Wunderlich von Pegasystems.

Aber: „Das liegt an unrealistischen Erwartungen.“ Die Cloud habe andere, wichtigere Qualitäten, etwa Verfügbarkeit, Skalierbarkeit, On-Demand-Ressourcen, aber auch Sicherheitsaspekte. Hinzu kommt, dass viele Cloud-Nutzer punkto Kosten noch ihre Hausaufgaben zu machen haben. So wollen 95 Prozent der CIOs die Transparenz und Kontrolle von Cloud-Kosten erhöhen. Auch das ist ein Ergebnis der Untersuchung von SoftwareOne.

Der Trend zur Cloud hat auch durch die komplexen Cloud-Servicewelten der Hyperscaler zu Wildwuchs und damit zu ‹Cloud Waste› geführt, auch im Bereich KI.
Mark Neufurth – Lead Strategist bei Ionos

Das heißt, es ist ein umfassendes Cloud-Kostenmanagement in Verbindung mit FinOps-Ansätzen erforderlich. Dies sollte allerdings nicht nur bei KI und Machine Learning aus der Cloud zum Zuge kommen, sondern bei allen Services, die Unternehmen aus einer Public Cloud beziehen.

Datenstrategie optimieren

Angesichts steigender Egress- und Ingress-Kosten (Datentransfers aus einer und in eine Cloud-Umgebung) ist ein weiterer Faktor wichtig: die Begrenzung der Datenmengen.

«Eine tragfähige cloudbasierte Datenhaltung vermeidet eine redundante Datenhaltung und überflüssige Datentransporte zwischen der eigenen IT-Infrastruktur und der Cloud oder zwischen mehreren Clouds – und damit auch unnötige Kosten», so Gilbert Jacqué von Microsoft.

Allerdings sind auch die Cloud-Serviceprovider gefordert: „Der Trend zur Cloud hat auch durch die komplexen Cloud-Servicewelten der Hyperscaler zu Wildwuchs und damit zu ‘Cloud Waste‘ geführt“, moniert Mark Neufurth von Ionos. „Die Limitierung bei der Nutzung von KI-Services aus der Cloud hängt also auch von der Frage ab, wie transparent ein Cloud-Anbieter strukturiert ist.“

Für viele Unternehmen und Organisationen dürfte es allerdings schwierig sein, aus der breiten Angebotspalette der großen Provider eine optimale Mischung von KI- und Machine-Learning-Services und den zugehörigen Infrastruktur-Komponenten wie Datenbanken, Storage- und Compute-Ressourcen zusammenzustellen. Abhilfe können IT-Dienstleister schaffen – in Form von Beratungsleistungen.

Wer geglaubt hat, allein aus Kostengründen in die Cloud gehen zu müssen, erlebt oft eine Überraschung.
Florian Maximilian Lauck-Wunderlich – Senior Project Delivery Leader bei Pegasystems

Kombination mit DevSecOps-Plattformen

Speziell bei Entwicklung unternehmenskritischer KI-Anwendungen sollte der Aspekt Sicherheit nicht zu kurz kommen. Das lässt sich mit DevSecOps-Plattformen erreichen, etwa GitLab.

«Wir erweitern aktiv unsere ModelOps-Funktionen, um die Erfahrung für KI-Entwickler zu verbessern, und bauen Funktionen ein, um Data-Science-Workloads nativ zu unterstützen», erläutert Taylor McCaslin, Group Manager – Product Data Science AI/ML bei GitLab. Dazu zählen die MLFlow-Integration, «sauberere» Python Notebooks und GPU SaaS Runners.

Eine DevSecOps-Plattform fasst die Funktionen zur Entwicklung und Bereitstellung von (KI-)Software in einem einheitlichen Workflow zusammen. Das beschleunigt Entwicklungsprozesse und reduziert das Risiko für Sicherheitslücken. Wichtig ist, dass solche Plattformen auch einen Zugang zu Ressourcen wie Grafikprozessoren bieten. GitLab hat daher eine Partnerschaft mit Oracle geschlossen.

Superrechner im eigenen Haus

Wer dennoch eine KI-Infrastruktur im eigenen Haus einrichten möchte, kann auf schlüsselfertige Lösungen zurückgreifen, beispielsweise die Systeme der DGX-Reihe von Nvidia. Sie sind mit Grafikprozessoren ausgestattet, die für Deep-Learning-Training und Inferencing optimiert wurden. Das hat allerdings seinen Preis: Ein System DGX H100 mit 640 Gigabyte GPU-Speicher wird Unternehmenskunden für mehr als 400 000 Euro angeboten.

Das Machine Learning Development System von HPE, das unter anderem auch der deutsche KI-Spezialist Aleph Alpha nutzt, dürfte sich mindestens in derselben Kategorie bewegen. Intels Sparte Habana Labs wiederum hat mit Gaudi2 und Gaudi3 Alternativen zu den Prozessoren von Nvidia entwickelt.

Entsprechende Systeme sind unter anderem von Supermicro erhältlich. Intels Hauptkonkurrent AMD kündigte Anfang 2023 an, KI-Funktionen in seine GPUs, CPUs, applikationsspezifischen Chips (ASICS) und FPGAs (Field-Programmable Gate Arrays) zu integrieren. Mit AMD Vitis AI Integrated Development Environment hat AMD außerdem eine Inference-Entwicklungslösung für AMD-Hardware vorgestellt.

KI-Supercomputer – via Cloud

Doch Investitionen in hauseigene Server mit KI-Hardware wollen gut überlegt sein, selbst aus Sicht der Anbieter: „Die Einrichtung einer KI-Infrastruktur vor Ort kann komplex sein und erhebliche Investitionen in Hard- und Software sowie Personal erfordern“, gibt Markus Hacker von Nvidia zu bedenken. „Zudem kann es schwieriger sein, mit dem hohen Tempo der KI-Innovationen Schritt zu halten.“

Vortrainierte Dienste wie der Azure OpenAI Service stehen Unternehmen jeder Größe und aus allen Branchen über die Cloud zur Verfügung. Dies ermöglicht im Grunde eine Demokratisierung von KI.
Gilbert Jacqué – Azure Solutions Go-To-Market Lead bei Microsoft Deutschland

Interessant ist die Lösung, die Nvidia parat hat: den DGX Cloud Service. Er ermöglicht es Entwicklern, über ein Web-Frontend auf einen „KI-Supercomputer in der Cloud“ zuzugreifen. Sie haben dadurch unter anderem die Möglichkeit, generative AI-Anwendungen zu erstellen, ähnlich wie ChatGPT.

Zunächst steht der Service über die Oracle Cloud Infrastructure (OCI) zur Verfügung. Microsoft Azure soll noch 2023 folgen.

KI-Services „Made in Europe“

Für Unternehmen, die nicht auf die KI-Cloud-Services der großen Provider zurückgreifen möchten oder dürfen, gibt es Alternativen von europäischen Anbietern.

Für Unternehmen, die sich nicht an die US-amerikanischen Hyperscaler binden wollen oder können, seien KI-Lösungen deutscher oder europäischer Unternehmen eine Option, so Mark Neufurth, Lead Strategist beim Cloud-Serviceprovider Ionos: „In Europa gibt es Unternehmen wie Aleph Alpha, Deepl und AX Semantics, die KI mit ausgefeilten Lösungen bedienen.“ Nicht alle dieser Lösungen, aber die meisten, seien auch über die Cloud verfügbar.

Aleph Alpha aus Heidelberg hat beispielsweise mit Luminous ein Sprachmodell entwickelt, das ähnliche Funktionen bietet wie das von OpenAI (ChatGPT), etwa Fragen von Usern zu beantworten und Texte zu erstellen. Im Unterschied zu anderen Ansätzen macht Luminous transparent, woher es seine Informationen bezieht.

Dies ist für Anwendungsbereiche mit hohen regulatorischen Hürden wichtig, etwa den Finanzsektor oder das Gesundheitswesen. Mittlerweile arbeitet Aleph Alpha mit dem IT-Dienstleister Adesso zusammen, und SAP hat sich eine Beteiligung an dem Unternehmen gesichert.

AX Semantics (Stuttgart) hat sich auf das KI-gestützte, automatisierte Erstellen und Analysieren von Texten fokussiert. Unterstützt werden über 110 Sprachen. Auch das Kölner Unternehmen Deepl konzentriert sich auf die maschinelle, KI-basierte Übersetzung von Texten.

Deepl führt an, dass seine Übersetzungen um ein Mehrfaches präziser seien als die vergleichbaren Services von Google und Microsoft.

Zu den Providern mit KI-Services und mit Sitz in Europa zählen neben Ionos beispielsweise OVHcloud (Frankreich) und die Deutsche Telekom (Deutschland).

„Außerdem baut Nextcloud ethische, vertrauenswürdige KI-Angebote in seine Lösungen ein“, so Neufurth. Mit Nextcloud könnten Unternehmen eine eigene Cloud-Umgebung einrichten, inklusive Collaboration-Funktionen. Version 26 der Software, die im April 2023 veröffentlicht wurde, unterstützt zudem ChatGPT.