Künstliche Intelligenz (KI) ist ein der bestimmendes Thema im Jahr 2024. Für die entsprechende KI-Leistung sorgen spezielle Prozessoren. Die Frage ist: Welcher Prozessor ist am besten geeignet, um die eigenen KI-gestützten Anwendungen schnell, kostengünstig und ressourcenschonend zu bewältigen? Jeff Wittich, Chief Product Officer beim Chip-Experten Ampere Computing, weiß Rat. [...]
Bei der Wahl der richtigen CPU oder Beschleuniger für rechenintensive KI-Trainings und groß angelegte Inferenzen kommt es auf eine ideale Dimensionierung der Rechenleistung für die jeweilige Anwendung an. Jeff Wittich, Chief Product Officer beim Chip-Experten Ampere Computing, kennt drei mögliche Wege, um die richtige Lösung für KI-Workloads auszusuchen:
1. Es wird nur so viel Rechenleistung wie benötigt eingesetzt, um die Leistungsanforderungen der Anwendung zu erfüllen:
GPUs und andere KI-Beschleuniger sind für viele KI-Anwendungen – insbesondere für Batch-Inferenzen – ein Overkill an Rechenleistung. Die meisten Unternehmen, die mit dem Einsatz von KI-Modellen beginnen, nutzen allerdings diese Art von Inferenzen.
Da Batch-Inferenzanwendungen weniger anspruchsvolle Workloads sind und nicht die Rechenleistung eines GPUs oder Beschleunigers benötigen, ist die Verwendung von GPUs für diesen Zweck vergleichbar mit dem Kauf eines schicken Sportwagens für den morgendlichen Arbeitsweg – es ist mehr, als nötig wäre. Wird eine GPU für Batch-Inferenz verwendet, wird in der Regel nur ein kleiner Prozentsatz der Kapazität der GPU genutzt. Da GPUs mehr Strom verbrauchen und teurer sind, spart der Wechsel von der GPU zur CPU in diesen Fällen Energie, Platz und Kosten.
2. Eine Kombination aus Beschleunigern und energieeffizienten Cloud Native Processors für schwere KI-Trainings oder LLM-Inferencing-Workloads:
Bei KI-Anwendungen, die einen Beschleunigererfordern, wird die schwere KI-Arbeitslast auf dem Beschleunigerverarbeitet, während eine CPU als Systemhost erforderlich ist. Bei dieser Anwendung ist die Leistung der CPU immer gleich – unabhängig davon, welche CPU verwendet wird, da der Beschleuniger die Leistung des Systems bestimmt. Daher ist die Verwendung einer möglichst energieeffizienten CPU empfehlenswert. Durch den Einsatz von Cloud Native Processors kann die Energieeffizienz, die im Vergleich zu herkömmlichen x86-CPUs gewonnen wird, den Stromverbrauch des Gesamtsystems erheblich reduzieren – bei exakt gleicher Leistung.
3. Umstellung der AI-CPU-only-Inferenzierung von herkömmlichen x86-Prozessoren auf Cloud Native Processors:
Die meisten reinen AI-CPU-only-Inferenzierungsprozesse können mit einer Cloud Native CPU effektiver und effizienter durchgeführt werden als mit einem herkömmlichen x86-Prozessor. Das liegt daran, dass sie von vornherein für die Verarbeitung von Cloud-Workloads, wie wir sie für KI verwenden, entwickelt wurden. Im Gegensatz zu herkömmlichen x86-Prozessoren kann dank der Leistungssteigerungen durch die Cloud Native Processors von Ampere eine CPU-only für ein breiteres Spektrum an KI-Workloads eingesetzte werden. Dadurch entfällt der Bedarf an zusätzlichen Beschleunigern und Kosten und Energieverbrauch werden gesenkt.
Die Zukunft der KI ist leistungsfähig, effizient und offen
Die Welt steuert darauf zu, dass wir KI in unsere Weise zu leben und arbeiten integrieren. Daher ist die Senkung der Hardware- und Stromkosten für die Masseneinführung eine der größten Herausforderungen. Richtig dimensionierte Rechenleistung und optimierte Modelle führen zu Effizienz im großen Maßstab.
Ein Schlüssel zur richtigen Dimensionierung ist die Sicherstellung, dass die Hardwarelösungen nicht nur Ihre heutigen Rechenanforderungen erfüllen, sondern auch das Wachstum und die Zukunftssicherheit Ihrer Anwendung von morgen ermöglichen.
*Jeff Wittich ist Chief Product Officer beim Chip-Experten Ampere Computing.