Die besten KI-Modelle versagen bei der Lösung der meisten Programmierprobleme

OpenAI-Forscher präsentieren neue Erkenntnisse über die Grenzen von KI in der Softwareentwicklung: Eine aktuelle Studie zeigt, dass selbst modernste KI-Modelle den menschlichen Codern nicht gewachsen sind. [...]

Obwohl alle getesteten LLMs in der Lage waren, deutlich schneller als ein Mensch zu arbeiten, können sie nicht mit der breiten Palette von Bugs und den damit verbundenen Kontexten, die ein menschlicher Entwickler versteht, umgehen. (c) EMGenie

Forscher von OpenAI haben festgestellt, dass selbst die fortschrittlichsten KI-Modelle nicht in der Lage sind, die meisten Programmierprobleme zu lösen. Dies geschieht zu einem Zeitpunkt, an dem OpenAI-CEO Sam Altman sagt: „Programming at the beginning of 2025 and at the end of 2025 will be very different.“ Der Bericht stützt sich auf die Ergebnisse des Benchmarks SWE-Lancer, der auf über 1.400 Software-Engineering-Aufgaben basiert, die von der Freelancer-Plattform Upwork stammen.

Die Forscher testeten die drei Sprachmodelle (LLMs) o1 und GPT-4o von OpenAI und Anthropics Claude 3.5 Sonnet. Die Tests umfassten sowohl individuelle Aufgaben, wie das Beheben von Bugs, als auch Managementaufgaben, bei denen die Modelle strategische Entscheidungen treffen sollten. Die Modelle hatten keinen Zugriff auf das Internet, was bedeutete, dass sie nicht auf bereits online enthaltene Lösungen zurückgreifen konnten.

Trotz der enormen finanziellen Ressourcen, die in die analysierten Aufgaben investiert wurden, schafften es die KI-Modelle nur, oberflächliche Softwareprobleme zu beheben. Sie waren nicht in der Lage, größere Bugs aufzuspüren oder deren Ursachen zu verstehen. Diese mangelhaften Lösungen sind wohlbekannt für jede Person, die mit KI gearbeitet hat, da diese Modelle zwar schnell agieren, jedoch oft an einem Mangel an Tiefe und Kontext leiden.

Ungenaue und unzureichende Lösungen

Obwohl alle getesteten LLMs in der Lage waren, „deutlich schneller als ein Mensch“ zu arbeiten, können sie nicht mit der breiten Palette von Bugs und den damit verbundenen Kontexten, die ein menschlicher Entwickler versteht, umgehen. Dies führt zu ungenauen und unzureichenden Lösungen.

Claude 3.5 Sonnet schnitt dabei besser ab als die beiden Modelle von OpenAI, allerdings waren die meisten Antworten dennoch fehlerhaft. Die Forscher stellen klar, dass kein Modell zuverlässig genug ist, um reale Programmieranliegen zu übernehmen.

Die Thematik wirft zudem ein Schlaglicht auf die bestehenden Bedenken in der Branche: Trotz der schnell voranschreitenden Entwicklung von LLMs sind diese Technologien noch nicht in der Lage, qualifizierte menschliche Ingenieure zu ersetzen.

Diese Erkenntnisse könnten für Unternehmen von Bedeutung sein, die in Erwägung ziehen, menschliche Codierer durch KI-Modelle zu ersetzen, was zu einem erheblichen Marktverdrängungsfaktor führen kann. Letztlich bleibt abzuwarten, wie sich KI im Bereich der Softwareentwicklung weiterentwickeln wird, doch die Hürden sind bis jetzt noch hoch. Das Potenzial ist vorhanden, sicher, jedoch ist es wichtig, die realistischen Grenzen der heutigen KI-Technologien im Blick zu behalten.

Testsuite „SWE-Lancer“

SWE-Lancer ist ein neuer Benchmark zur Erfassung der Fähigkeiten von fortschrittlichen KI-Modellen im Bereich Software Engineering. Diese Benchmark bündelt mehr als 1.400 freiberufliche Aufgaben von der Plattform Upwork, die insgesamt mit einem Wert von einer Million US-Dollar dotiert sind. Mit einem breiten Spektrum an Aufgaben, die von einfachen Bugfixes im Wert von 50 US-Dollar bis hin zu komplexen Implementierungen von Features für bis zu 32.000 US-Dollar reichen, bietet SWE-Lancer einen vielschichtigen Einblick in die Leistungsfähigkeit von KI-Modellen in der realen Welt.

Mehr zum Thema finden Sie in dem englischen Blogbeitrag „OpenAI Researchers Find That Even the Best AI Is Unable To Solve the Majority of Coding Problems„.

* Patrick Hediger schreibt für PCtipp.ch.


Mehr Artikel

Raiffeisen Bank International etabliert internationales FinTech-Scout-Netzwerk. (c) Unsplash
News

RBI setzt auf globale FinTech-Scouts

Die Raiffeisen Bank International (RBI) verstärkt ihre Bemühungen im Bereich Finanzinnovationen durch die Etablierung eines global verteilten Teams von FinTech-Scouts. Diese Experten sollen Marktentwicklungen und neue Geschäftsmodelle aufzeigen sowie direkten Zugang zu relevanten Technologieanbietern weltweit ermöglichen. […]

News

Hightech-Crime-Report: Advanced Persistent Threats setzen Europa unter Druck

Mit einem Anstieg von 22 Prozent gegenüber dem Vorjahr nahmen betrügerische Machenschaften 2024 weltweit zu. Europäische Finanzdienstleister waren mit 34 Prozent aller Betrugsfälle am stärksten betroffen, gefolgt von der Transportbranche und dem Regierungs- und Militärsektor. Auch bei Phishing-Angriffen setzte sich der Aufwärtstrend fort: Mehr als 80.000 Phishing-Websites wurden 2024 enttarnt – ein Anstieg um 22 Prozent gegenüber dem Vorjahr. […]

News

Fünf Mythen über Managed Services 

Managed Services sind ein Erfolgsmodell. Trotzdem existieren nach wie vor einige Vorbehalte gegenüber externen IT-Services. Der IT-Dienstleister CGI beschreibt die fünf hartnäckigsten Mythen und erklärt, warum diese längst überholt sind. […]

News

ESET: MDR-Lösungen für Managed Service Provider

ESET erweitert sein Angebot für seine Managed Service Provider (MSP) und Channel-Partner, um sie angesichts der zunehmend komplexen Bedrohungslandschaft gezielt zu unterstützen. Die neuesten Ergänzungen umfassen den Service „ESET MDR für MSPs“, eine erweiterte KI-gestützte Bedrohungsanalyse durch den ESET AI Advisor sowie flexible Preismodelle für MSP. […]

News

Geniale Handy-Tricks

Smartphones haben etliche Funktionen, die kaum jemand nutzt, aber Ihren digitalen Alltag bereichern können. Wir stellen Ihnen eine Auswahl der besten Geheimtipps vor – sowohl für Android-Smartphones als auch für Apples iPhones. […]

Die Kombination aus interner Mobilität und Ressourcenbeschränkungen führt schnell zu einem Wildwuchs bei den vergebenen Privilegien. (c) Unsplash
Kommentar

6 Wege, wie Privilege Management die Sicherheitslage verbessert

Identitäten, Konten, Computer, Gruppen und andere Objekte benötigen gleichermaßen Zugang zu Ressourcen – limitiert auf die jeweilige Rolle und nur solange der Zugriff tatsächlich gebraucht wird. Dies ist ein grundlegender Bestandteil eines Zero Trust Least Privilege-Modelles und als solcher von AD-Administratoren, IT-Leitern, dem höheren Management und CISOs anerkannt. […]

David Blum, Defense & Security Lead bei Accenture, im Gespräch mit der ITWELT.at. (c) timeline / Rudi Handl
Interview

„Ein resilientes Unternehmen zeichnet sich durch größtmögliche Transparenz aus“

Transparenz, soweit im Sicherheitskontext möglich, ist für David Blum, Defense & Security Lead bei Accenture, ein wichtiger Bestandteil von Unternehmensresilienz. Das fördere die aus dem Verständnis folgende Unterstützung der Mitarbeitenden. Die unternehmerische Resilienz müsse nicht nur technisch, sondern auch kulturell verankert werden: „Denn Resilienz beginnt im Kopf jedes Einzelnen“, sagt Blum im Gespräch mit der ITWELT.at. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*