Foto von Luke Chesser auf Unsplash Source

Claude Opus 4.5 erreicht 80,9% auf SWE-bench Verified. Dasselbe Modell kommt auf SWE-bench Pro nur auf 45,9%. Diese 35-Punkte-Lücke ist kein Messfehler. Es ist der Unterschied zwischen einem Benchmark, dessen Lösungen in den Trainingsdaten gelandet sind, und einem, bei dem das nicht passiert ist. Im März 2026 hat OpenAI Belege veröffentlicht, dass jedes Frontier-Modell, einschließlich ihres eigenen GPT-5.2, Anzeichen zeigt, SWE-bench-Verified-Lösungen während des Trainings gesehen zu haben. OpenAI hat daraufhin die Veröffentlichung von Verified-Scores komplett eingestellt.

Das ist relevant, weil KI-Agent-Benchmarks bestimmen, welches Modell die Branche als “bestes” einstuft. Wenn die Benchmarks fehlerhaft sind, sind die Rankings Fiktion. Hier eine Analyse der wichtigsten Benchmarks: was sie tatsächlich messen, wo sie versagen, und welche Alternativen es gibt.

Weiterlesen: KI-Agent-Testing: Wie man nicht-deterministische Systeme testet

SWE-bench: Der Benchmark, der die KI-Branche dominiert

SWE-bench wurde 2023 von Princeton-Forschern vorgestellt und prüft, ob KI-Agenten echte GitHub-Issues aus Open-Source-Python-Repositories lösen können. Der Agent bekommt einen Bug-Report und eine Codebasis. Dann wird geprüft, ob sein Patch die Test-Suite des Repos besteht. Einfaches Konzept, enormer Einfluss.

Aus dem ursprünglichen Benchmark sind drei Varianten entstanden, die jeweils Probleme der Vorgängerversion beheben sollten.

SWE-bench Verified enthält 500 manuell validierte Aufgaben aus dem Originaldatensatz. Menschliche Prüfer haben bestätigt, dass jede Aufgabe lösbar ist und die Tests korrekt funktionieren. Stand März 2026 zeigt das Leaderboard Claude Opus 4.5 bei 80,9%, Claude Opus 4.6 bei 80,8%, Gemini 3.1 Pro bei 80,6% und GPT-5.2 bei 80,0%. Die Scores liegen an der Spitze so dicht beieinander, weil der Benchmark praktisch gesättigt ist.

Doch diese Sättigung ist künstlich. OpenAIs Untersuchung ergab, dass fast 60% der Aufgaben, an denen ihre Modelle scheiterten, grundlegend fehlerhafte Tests enthielten. Als GPT-5.2 31 als “nahezu unlösbar” klassifizierte Aufgaben löste, stellte das Team fest, dass das Modell Informationen aus Release Notes memorisiert hatte, die genau die richtigen Fixes beschrieben. Jedes Frontier-Modell zeigte ähnliche Kontaminationsmuster.

SWE-bench Pro ist Scale AIs Antwort darauf. Der Benchmark umfasst 1.865 Aufgaben in mehreren Programmiersprachen und nutzt GPL-lizenzierte sowie proprietäre Codebasen, die mit hoher Wahrscheinlichkeit nicht in Trainingsdaten auftauchen. Die Ergebnisse sind ernüchternd: Claude Opus 4.5 fällt auf 45,9%. GPT-5.2 landet auf dem Private-Split bei etwa 23%. Diese Zahlen liegen vermutlich näher an dem, was Agenten tatsächlich mit unbekanntem Code leisten können.

SWE-bench Live fügt monatlich 50 neue verifizierte Issues aus aktiven Repositories hinzu. Weil die Aufgaben frisch sind, ist Kontamination strukturell ausgeschlossen. Der Datensatz umfasst mittlerweile über 1.565 Aufgaben aus 164 Repositories und ist damit die nachhaltigste Option, um echten Fortschritt über die Zeit zu verfolgen.

Warum das Agent-Framework genauso wichtig ist wie das Modell

Eine Zahl, die verändern sollte, wie man Leaderboards liest: Im Februar 2026 erzielten drei verschiedene Tools mit demselben Claude-Opus-4.5-Modell bei 731 SWE-bench-Issues einen Unterschied von 17 gelösten Aufgaben. Gleiches Modell, unterschiedliche Agent-Frameworks, unterschiedliche Ergebnisse. Das Scaffold (wie der Agent Kontext verwaltet, Tools auswählt, Fehler behandelt und seinen Workflow strukturiert) macht einen erheblichen Teil des Endergebnisses aus.

SWE-bench misst also nicht die Modellqualität allein. Es misst die kombinierte Leistung von Modell plus Agent-Architektur. Ein mittelmäßiges Modell in einem gut durchdachten Scaffold kann ein Frontier-Modell in einem simplen Wrapper übertreffen.

Weiterlesen: KI-Agent-Frameworks im Vergleich: LangGraph, CrewAI, AutoGen

WebArena: Wenn Agenten im Browser arbeiten

Während SWE-bench Coding-Fähigkeiten testet, prüft WebArena, ob KI-Agenten reale Aufgaben auf Websites erledigen können. Der Benchmark stellt Klone echter Webanwendungen bereit (E-Commerce-Shops, Foren, Content-Management-Systeme, Karten, Code-Repositories) und stellt Aufgaben wie “Finde das günstigste Produkt mit diesen Kriterien” oder “Verfasse eine Antwort in diesem Thread mit bestimmten Informationen.”

Der Benchmark umfasst 812 Aufgaben in diesen simulierten Umgebungen. Jede Aufgabe erfordert mehrere Schritte: Seiten navigieren, Formulare ausfüllen, Buttons klicken, Ergebnisse interpretieren und Entscheidungen treffen. Menschen erreichen als Baseline etwa 78%.

Der Fortschritt war rasant. 2023 lag der beste Agent bei 14,4%. Bis Februar 2026 erreichten optimierte Agenten 61,7% auf dem vollständigen Benchmark. Dieser Sprung kam durch die Konvergenz auf eine modulare Architektur: ein High-Level-Planner, der Aufgaben zerlegt, ein spezialisierter Executor für die Seiteninteraktion und ein strukturierter Speicher, der den Zustand über Schritte hinweg verfolgt.

WebArena-Verified ist eine neuere Ergänzung von ServiceNow, die denselben Ansatz manueller Validierung wie SWE-bench Verified anwendet, um mehrdeutige oder fehlerhafte Aufgaben zu entfernen. Seit Februar 2026 stehen optimierte Docker-Images zur Verfügung, die lokale Evaluierungen erheblich vereinfachen.

BrowserGym ist das Framework, auf dem WebArena und mehrere andere Web-Benchmarks aufbauen. Es bietet eine einheitliche Umgebung für browserbasierte Agent-Aufgaben, darunter MiniWoB (einfache Web-Interaktionen), WebArena (komplexe Web-Aufgaben) und WorkArena (Enterprise-Workflows). Wer einen Web-Browsing-Agenten baut und benchmarken will, startet hier.

ST-WebAgentBench fügt eine Sicherheitsdimension hinzu, die den anderen fehlt. Ende 2025 veröffentlicht, bewertet er, ob Web-Agenten sensible Daten angemessen behandeln, unautorisierte Aktionen vermeiden und Benutzerberechtigungen respektieren. Ein Agent, der eine Aufgabe erledigt, dabei aber personenbezogene Daten preisgibt, würde auf WebArena gut abschneiden und auf ST-WebAgentBench durchfallen. Für Unternehmen im DACH-Raum, die unter der DSGVO arbeiten, ist diese Dimension besonders relevant.

AgentBench und allgemeine Evaluierung

Nicht jeder Agent schreibt Code oder surft im Web. AgentBench, 2023 von Forschern der Tsinghua-Universität vorgestellt, evaluiert Agenten in acht verschiedenen Umgebungen: Betriebssysteme, Datenbanken, Wissensgraphen, Kartenspiele, Querdenker-Rätsel, Haushaltsaufgaben, Web-Shopping und Web-Browsing.

Die Breite ist Absicht. Ein Agent, der beim Coden glänzt, kann am Navigieren eines Dateisystems oder Abfragen einer Datenbank scheitern. AgentBench behandelt diese als grundlegend verschiedene Fähigkeiten statt als Variationen derselben Kompetenz.

Weitere wichtige Benchmarks:

GAIA (General AI Assistants) testet mehrstufiges Reasoning, das Websuche, Dokumentanalyse und logische Schlussfolgerung kombiniert. Die Aufgaben sind so konzipiert, dass Menschen sie in Minuten lösen können, aktuelle KI-Systeme aber an der mehrstufigen Planung scheitern.

Tau-bench von Sierra konzentriert sich auf Kundenservice-Szenarien. Selbst GPT-4o löste weniger als 50% der realen Kundenservice-Aufgaben in der Evaluierung. Das zeigt eine erhebliche Lücke zwischen Chatbot-Performance auf allgemeinen Benchmarks und tatsächlichen Geschäftsworkflows.

Das AI Agent Benchmark Compendium von Philipp Schmid katalogisiert über 50 Agent-Benchmarks, geordnet nach Kategorien: Function Calling, Tool Use, Coding, Computer-Interaktion und allgemeines Reasoning. Falls ein Benchmark für die Domäne Ihres Agenten existiert, ist er wahrscheinlich dort gelistet.

Weiterlesen: GPT Codex vs Claude Opus Coding-Agenten: Die echten Unterschiede

Eigene Evaluierungen aufbauen: Warum das wichtiger ist als jede Rangliste

Öffentliche Benchmarks zeigen, welches Modell sich verbessert. Sie sagen nicht, ob ein Agent für Ihren konkreten Anwendungsfall funktioniert. Anthropics Engineering-Guide zu Agent-Evals bietet ein praxisnahes Framework, das 2026 zum Standardansatz geworden ist.

Die Kernempfehlung: Starten Sie mit 20 bis 50 Testfällen aus echten Fehlern. Keine synthetischen Szenarien, keine umfassende Abdeckung, nur die Dinge, die tatsächlich in der Produktion kaputtgegangen sind. Am Anfang des Lebenszyklus eines Agenten haben Änderungen große Effektstärken, sodass kleine Stichproben ausreichen, um echte Verbesserungen zu erkennen.

Der Guide beschreibt drei Evaluierungsdimensionen, die unabhängig vom Agententyp gelten:

Nichts kaputt machen. Der Agent soll keine Daten korrumpieren, keine unbeabsichtigten Nebeneffekte auslösen und Systeme nicht in einen inkonsistenten Zustand versetzen. Bei einem Code-Agenten heißt das: Die bestehende Test-Suite besteht weiterhin. Bei einem Kundenservice-Agenten: Er macht keine unautorisierten Zusagen.

Die Aufgabe erledigen. Der Agent soll den geforderten Task abschließen. Klingt offensichtlich, aber die Messung ist schwierig, wenn Aufgaben offen formuliert sind. Descript, das Videobearbeitungsunternehmen, hat Evaluierungen gebaut, die ein zweites LLM als Richter einsetzen, regelmäßig gegen menschliche Bewertungen kalibriert, um zu beurteilen, ob Bearbeitungsaktionen der Nutzerabsicht entsprachen.

Gut erledigen. Über die reine Aufgabenerledigung hinaus: War das Ergebnis qualitativ hochwertig? Ein Code-Patch, der Tests besteht, aber technische Schulden einführt, wird anders bewertet als eine elegante Lösung. Diese Dimension ist am schwierigsten zu automatisieren und profitiert am meisten von LLM-as-Judge-Ansätzen.

Der Ertrag dieser Investition ist Geschwindigkeit. Teams mit automatisierten Evaluierungen können Modelle in Tagen upgraden. Teams ohne sie stehen bei jedem neuen Modellrelease vor wochenlangem manuellen Testing. In einem Markt, in dem sich Modellfähigkeiten quartalsweise verbessern, entscheidet dieser Unterschied darüber, ob man aktuell bleibt oder zurückfällt. Gerade für Unternehmen im DACH-Raum, die gemäß dem EU AI Act ohnehin Evaluierungspflichten für Hochrisiko-KI-Systeme nachweisen müssen, lohnt sich der Aufbau robuster Eval-Pipelines doppelt.

Weiterlesen: KI-Coding-Assistenten im Vergleich: Cursor vs Claude Code vs Copilot vs Devin

Häufig gestellte Fragen

Was ist SWE-bench und warum ist es für KI-Agenten relevant?

SWE-bench ist ein Benchmark, der testet, ob KI-Agenten echte GitHub-Issues aus Open-Source-Repositories lösen können. Er misst praktische Programmierfähigkeit statt theoretisches Wissen. Allerdings ist der ursprüngliche SWE-bench-Verified-Datensatz durch Trainingsdaten kontaminiert, mit um über 30 Prozentpunkte aufgeblähten Scores. SWE-bench Pro und SWE-bench Live sind zuverlässigere Alternativen.

Warum sind SWE-bench-Verified-Scores 2026 unzuverlässig?

OpenAI hat festgestellt, dass jedes Frontier-Modell, darunter GPT-5.2, Claude Opus 4.5 und Gemini 3 Flash, auf SWE-bench-Verified-Lösungen trainiert wurde. Modelle, die auf Verified 80% erreichen, fallen auf SWE-bench Pro auf etwa 23-46%. OpenAI hat die Veröffentlichung von Verified-Scores eingestellt und empfiehlt stattdessen SWE-bench Pro.

Was ist der Unterschied zwischen SWE-bench Verified und SWE-bench Pro?

SWE-bench Verified enthält 500 Python-Aufgaben aus öffentlichen Open-Source-Repos, die durch Modelltraining kontaminiert sind. SWE-bench Pro umfasst 1.865 mehrsprachige Aufgaben aus GPL-lizenzierten und privaten Codebasen, die kaum in Trainingsdaten erscheinen. Der Leistungsunterschied ist drastisch: Claude Opus 4.5 erreicht 80,9% auf Verified, aber nur 45,9% auf Pro.

Wie bewertet WebArena KI-Agenten anders als SWE-bench?

WebArena testet, ob KI-Agenten mehrstufige Aufgaben auf echten Websites erledigen können, etwa E-Commerce-Einkäufe, Forum-Beiträge und Content Management. Der Benchmark umfasst 812 Aufgaben, die Navigation, Formulareingabe und Entscheidungsfindung erfordern. Während SWE-bench sich ausschließlich auf Code-Bearbeitung konzentriert, bewertet WebArena die Art webbasierter Arbeit, die viele reale Agenten leisten müssen.

Wie sollte ich meinen eigenen KI-Agenten evaluieren, wenn öffentliche Benchmarks nicht passen?

Anthropic empfiehlt, mit 20 bis 50 Testfällen aus echten Fehlern zu starten, die der Agent erlebt hat. Drei Dimensionen stehen im Fokus: Der Agent soll bestehende Funktionalität nicht beschädigen, die geforderte Aufgabe abschließen, und die Ergebnisse sollen qualitativ hochwertig sein. Ein LLM als Richter, periodisch gegen menschliche Bewertungen kalibriert, skaliert diese Evaluierung, ohne jede Ausgabe manuell prüfen zu müssen.