Ihr KI-Agent soll einen Flug buchen. Neun von zehn Mal klappt es. Beim zehnten Versuch bucht er das falsche Datum, wählt einen Umweg über drei Zeitzonen oder bestätigt eine Reservierung, die nie zustande kam. Klassische Unit-Tests fangen das nicht ab. Der Agent hat jedes Mal einen gültigen Codepfad durchlaufen. Das Problem: KI-Agenten sind nicht-deterministisch. Gleiche Eingabe, anderes Ergebnis, bei jedem Lauf.

Genau deshalb hat Anthropic im Januar 2026 “Demystifying Evals for AI Agents” veröffentlicht. Evaluierungen seien die wichtigste Praxis, um Agenten zuverlässig in Produktion zu bringen. Die Empfehlung: Starten Sie mit 20 bis 50 Testfällen, die auf echten Fehlern basieren. Nicht Hunderte. Nicht eine vollständige Testsuite. Nur die Dinge, die tatsächlich schiefgegangen sind.

Weiterlesen: Was sind KI-Agenten? Ein praktischer Leitfaden für Entscheider

Warum klassisches Testen bei Agenten versagt

Eine Funktion, die Steuern berechnet, liefert bei jedem Aufruf dieselbe Zahl. Man schreibt einen Test, prüft die Ausgabe, fertig. KI-Agenten brechen dieses Modell auf drei Arten.

Nicht-deterministische Ausgaben. Derselbe Prompt erzeugt unterschiedliche Tool-Aufrufe, andere Reasoning-Ketten und verschiedene Endergebnisse. Temperature-Einstellungen, Modell-Updates und der Inhalt des Kontextfensters sorgen für Variation. Man kann nicht auf exakte Ausgabestrings prüfen.

Mehrstufige Ausführung. Ein Agent, der ein Thema recherchiert, ruft eine Such-API auf, liest drei Dokumente, fasst Ergebnisse zusammen und erstellt einen Bericht. Ein Fehler bei Schritt vier kann durch eine schlechte Entscheidung bei Schritt zwei verursacht worden sein. Der Test muss die gesamte Trajectory bewerten, nicht nur das Endergebnis.

Umgebungsabhängigkeit. Agenten interagieren mit APIs, Datenbanken und Webseiten, die sich unabhängig ändern. Ein Test, der gestern bestanden hat, kann heute scheitern, weil eine Website ihre HTML-Struktur aktualisiert hat, eine API ihr Antwortformat geändert hat oder Rate-Limits greifen.

Anthropic formuliert das klar: “Die Eigenschaften, die Agenten nützlich machen (Autonomie, Intelligenz, Flexibilität), machen sie gleichzeitig schwerer zu evaluieren.”

Das Eval-Konzept: Was testen und wie

Anthropic unterscheidet zwei Evaluierungstypen, die jedes Agent-Team braucht.

Capability Evals beantworten “Was kann dieser Agent?” Sie starten mit niedrigen Bestehensraten und verbessern sich mit dem Agenten. Das sind die Grenz-Tests: Aufgaben, die der Agent noch nicht zuverlässig bewältigt, aber perspektivisch können sollte.

Regression Evals beantworten “Funktioniert das noch?” Sie sollten nahe 100% Bestehensrate halten. Wenn ein Regression-Eval fehlschlägt, ist etwas kaputt, das vorher funktioniert hat. Das ist Ihr Sicherheitsnetz.

Drei Grader-Typen

Nicht jedes Eval braucht ein LLM zur Bewertung. Anthropic identifiziert drei Ansätze, und die besten Teams kombinieren alle drei:

Code-basierte Grader sind schnell, günstig und objektiv. String-Matching, reguläre Ausdrücke, Datenbankzustandsprüfungen, Unit-Test-Ausführung. Soll der Agent eine Datei erstellen? Prüfen Sie, ob die Datei existiert. Soll er einen Datenbankeintrag aktualisieren? Fragen Sie die Datenbank ab. Nutzen Sie diese, wann immer möglich.

Modell-basierte Grader bewerten subjektive Qualität. Ein LLM bewertet, ob die Antwort des Agenten hilfreich, korrekt oder angemessen formuliert war. Diese sind langsamer und teurer, aber notwendig für Konversationsagenten, Inhaltserstellung und jede Aufgabe, bei der “richtig” nicht binär ist. Kalibrieren Sie sie gegen menschliche Urteile.

Menschliche Grader sind der Goldstandard für subjektive Aufgaben, skalieren aber nicht. Nutzen Sie sie, um Ihre automatisierten Grader zu validieren, nicht um tägliche Evals durchzuführen.

pass@k vs. pass^k: Die entscheidende Metrik

pass@k misst, ob der Agent mindestens einmal bei k Versuchen Erfolg hat. Bei 50% Erfolgsrate liegt pass@3 bei 87,5%. Nützlich für Tools, bei denen ein Erfolg reicht: Code-Generierung (drei Kandidaten erzeugen, den besten wählen).

pass^k misst, ob der Agent bei allen k Versuchen Erfolg hat. 75% Erfolgsrate pro Versuch ergibt nur ~42% pass^3. Das ist die Metrik für kundenorientierte Agenten. Wenn ein Kundenservice-Bot bei jedem vierten Mal versagt, ist das inakzeptabel, und pass^k macht das sichtbar.

Sierras Tau-Bench nutzt pass^k als primäre Metrik. Die Ergebnisse sind ernüchternd: Selbst GPT-4o schafft weniger als 50% der Aufgaben, bei pass^8 im Retail-Kundenservice sinkt die Rate unter 25%.

Weiterlesen: KI-Agent-Frameworks im Vergleich: LangGraph, CrewAI, AutoGen

Die relevanten Benchmarks 2026

Dutzende Agent-Benchmarks existieren. Diese fünf werden von Teams tatsächlich herangezogen.

GAIA

GAIA testet allgemeine KI-Assistenz-Fähigkeiten auf drei Schwierigkeitsstufen: Reasoning, Web-Browsing, Multimodalität und Tool-Nutzung. Menschen erreichen ~92%. Der beste KI-Agent (Writers Action Agent) kam Mitte 2025 auf 61% bei Level-3-Aufgaben. GPT-4 mit Plugins schaffte anfangs kaum 15%. GAIA zeigt die Lücke zwischen einfachen und komplexen Aufgaben schonungslos auf.

SWE-bench Verified

SWE-bench Verified ist der Standard für Coding-Agenten. 500 von Menschen validierte GitHub-Issues aus echten Python-Repositories. Die Aufgabe: einen Code-Patch generieren, der das Issue löst und die Test-Suite besteht. Die Leistung verbesserte sich in einem Jahr von ~40% auf über 70% (Warps Agent erreicht 71%). Für deutsche Entwicklungsteams ein wichtiger Maßstab: Coding-Agenten werden bei Routine-Bugfixes praktisch einsetzbar, bei Multi-Datei-Refactoring bleibt es schwierig.

Tau-Bench und Tau2-Bench

Sierras Tau-Bench simuliert echte Kundenservice-Gespräche. Ein LLM spielt den Kunden, der Agent bearbeitet die Anfrage. Die Bewertung prüft, ob der Agent den korrekten Datenbankzustand erreicht hat, nicht ob das Gespräch höflich klang. Tau2-Bench ergänzt eine Telekommunikations-Domäne. Für DACH-Unternehmen, die Kundenservice-Agenten einsetzen, ist diese Benchmark-Methodik besonders relevant: Sie misst, ob das Problem gelöst wurde, nicht ob der Agent freundlich war.

WebArena

WebArena testet Agenten auf 812 Aufgaben in selbst-gehosteten Websites: E-Commerce, Foren-Verwaltung, Code-Repositories. Die Agent-Leistung verbesserte sich in zwei Jahren von ~14% auf rund 60%. Standard-Benchmark für Browser-basierte Agenten und Web-Automatisierung.

BrowseComp

BrowseComp von OpenAI evaluiert Recherche-Agenten bei komplexen Web-Browsing-Aufgaben. Getestet wird, ob Agenten akkurate, fundierte Antworten auf Fragen finden, die das Navigieren mehrerer Quellen und die Synthese von Informationen erfordern.

Eine Eval-Suite aufbauen: Der praktische Leitfaden

Anthropics Engineering-Team bietet einen schrittweisen Ansatz, der unabhängig vom Agenten-Typ funktioniert.

Schritt 1: Mit echten Fehlern starten

Erfinden Sie keine Testfälle. Ziehen Sie sie aus Produktionsvorfällen, Kundenbeschwerden und manuellen QA-Sessions. Wenn Sie noch keine Produktionsdaten haben, nehmen Sie die Szenarien, die Sie vor dem Launch manuell getestet haben. 20 Testfälle, die echte Fehlermuster abdecken, sind mehr wert als 200 synthetische Happy-Path-Szenarien.

Schritt 2: Aufgaben eindeutig formulieren

Jede Eval-Aufgabe braucht eine Referenzlösung, die beweist, dass sie lösbar ist. Anthropics Maßstab: “Zwei Domänenexperten sollten unabhängig voneinander zum selben Bestanden/Nicht-bestanden-Urteil kommen.” Wenn zwei Ingenieure sich nicht einig sind, ob die Ausgabe des Agenten korrekt ist, liegt das Problem in der Aufgabenspezifikation.

Schritt 3: Abwesenheit testen, nicht nur Anwesenheit

Die meisten Eval-Suites sind einseitig. Sie testen “Tut der Agent X, wenn er soll?” aber nicht “Unterlässt der Agent X, wenn er nicht soll?” Balancieren Sie Ihr Test-Set: Fügen Sie Aufgaben hinzu, bei denen das korrekte Verhalten darin besteht, abzulehnen, nachzufragen oder nichts zu tun.

Schritt 4: Jeden Durchlauf isolieren

Geteilter Zustand zwischen Eval-Läufen verursacht korrelierte Fehler, die wie systematische Bugs aussehen, aber Infrastrukturprobleme sind. Geben Sie jedem Durchlauf eine saubere Umgebung: frischer Datenbankzustand, leerer Kontext, kein Übertrag aus vorherigen Läufen.

Schritt 5: Sättigung beobachten

Wenn eine Eval-Suite 100% Bestehensrate erreicht, liefert sie kein nützliches Signal mehr. Das heißt nicht, dass Ihr Agent perfekt ist. Es heißt, Ihre Tests sind zu einfach. Aktualisieren Sie Capability Evals mit dem Agenten. Halten Sie Regression Evals bei 100%.

Anthropic erlebte das selbst: Claude Opus 4.5 erzielte zunächst 42% auf CORE-Bench, sprang nach dem Beheben von Grading-Bugs auf 95%. Die Lektion: Eval-Scores nicht für bare Münze nehmen, bevor jemand die Details geprüft und Transkripte gelesen hat.

Tools für Agent-Evaluierung

Das Tool-Ökosystem ist deutlich gereift. Diese Plattformen werden im Produktivbetrieb eingesetzt.

LangSmith

LangSmith ist LangChains Evaluierungs- und Observability-Plattform. Tracing jedes LLM-Aufrufs, Erfassung von Prompts und Outputs, Kosten- und Latenz-Tracking, datenbasierte Evaluation mit LLM-as-Judge-Workflows. Wer im LangChain/LangGraph-Ökosystem arbeitet, greift zuerst hierzu.

Braintrust

Braintrust kombiniert Evaluation mit Produktionsmonitoring. Evals gegen Datasets, Prompt-Vergleiche, automatisierte Bewertung. Stark bei TypeScript/JavaScript-Support und dem integrierten Eval-plus-Monitoring-Workflow. Enterprise-Teams schätzen die Self-Hosting-Option.

Evidently AI

Evidently fokussiert auf Testing und Monitoring von LLM-Anwendungen, mit über 25 Millionen Downloads der Open-Source-Bibliothek. Evidently Cloud bietet einen No-Code-Arbeitsbereich für synthetische Datengenerierung, adversariale Tests und Performance-Tracking. Deren Leitfaden zu 10 KI-Agent-Benchmarks gehört zu den umfassendsten verfügbaren Referenzen.

ToolIdeal fürKernfunktionOpen Source
LangSmithLangChain-NutzerTracing + Eval-IntegrationNein (Free Tier)
BraintrustFull-Stack-EvalEval + Monitoring vereintNein (Free Tier)
Evidently AIOpen-Source-TeamsSynthetische Daten + adversariale TestsJa
Inspect AIForschungsteamsUK AISI Eval-FrameworkJa

EU AI Act und Agent-Testing

Für DACH-Unternehmen gibt es einen regulatorischen Aspekt, der Agent-Testing von einer Best Practice zu einer Pflicht macht. Der EU AI Act klassifiziert KI-Systeme in Risikokategorien. Hochrisiko-Systeme (Recruiting, Kreditvergabe, medizinische Diagnostik) erfordern nachweisbare Qualitätssicherung.

Artikel 9 des EU AI Act verlangt ein Risikomanagementsystem, das “die Identifizierung und Analyse der bekannten und vernünftigerweise vorhersehbaren Risiken” umfasst. Concretely: Sie müssen dokumentieren, wie Sie Ihren Agenten getestet haben, welche Szenarien Sie abgedeckt haben und wie Sie mit identifizierten Schwächen umgehen.

Die Eval-Methodik von Anthropic (Capability Evals, Regression Evals, drei Grader-Typen, Transcript-Review) liefert ein Framework, das sich direkt auf die EU AI Act-Anforderungen abbilden lässt. Wer schon heute systematische Evals aufbaut, hat bei der Compliance-Prüfung weniger nachzuarbeiten.

Weiterlesen: MCP und A2A: Protokolle für KI-Agent-Kommunikation

Typische Fehler und wie man sie vermeidet

Die Konversation statt das Ergebnis bewerten. Ein Chatbot, der selbstbewusst und höflich klingt, kann trotzdem falsche Antworten geben. Sierras Tau-Bench bewertet den Datenbankzustand, nicht die Gesprächsqualität. Gleiches Prinzip: Prüfen Sie, was der Agent tatsächlich getan hat, nicht was er behauptet hat.

Evals einmal ausführen und abhaken. Modelle werden aktualisiert. APIs ändern sich. Nutzerverhalten verschiebt sich. Evals müssen kontinuierlich laufen, idealerweise bei jeder Code-Änderung und planmäßig gegen die Produktion. Behandeln Sie Ihre Eval-Suite wie Ihre Test-Suite: Sie gehört in die CI/CD-Pipeline.

Transkript-Review ignorieren. Automatisierte Grader fangen quantifizierbare Fehler ab. Aber das Lesen roher Agent-Transkripte baut Intuition für Fehlermuster auf, die keine Metrik erfasst. Anthropic empfiehlt regelmäßiges Transkript-Review als Kernpraxis.

Auf Benchmarks überindexieren. GAIA und SWE-bench messen allgemeine Fähigkeiten. Sie sagen nicht, ob Ihr spezifischer Agent Ihre spezifischen Anwendungsfälle beherrscht. Maßgeschneiderte Evals auf Ihren Daten sind immer aussagekräftiger als Benchmark-Scores.

Die “Sollte-nicht-tun”-Fälle vergessen. Die gefährlichsten Agent-Fehler passieren nicht, wenn der Agent nichts tut. Sie passieren, wenn der Agent selbstbewusst in Situationen handelt, in denen er es nicht sollte. Testen Sie Verweigerung und Eskalation genauso aggressiv wie Aufgabenerfüllung.

Häufig gestellte Fragen

Wie testet man KI-Agenten?

KI-Agenten werden durch Evaluierungen (Evals) getestet: strukturierte Testaufgaben mit definierten Eingaben und Bewertungslogik. Anthropic empfiehlt den Start mit 20 bis 50 Testfällen aus echten Produktionsfehlern. Code-basierte Grader für objektive Prüfungen, modell-basierte Grader für subjektive Qualität und menschliche Grader zur Kalibrierung. Capability Evals und Regression Evals bei jeder Code-Änderung ausführen.

Was ist der Unterschied zwischen pass@k und pass^k?

pass@k misst, ob ein Agent mindestens einmal bei k Versuchen erfolgreich ist. Bei 50% Erfolgsrate liegt pass@3 bei 87,5%. Nützlich für Tools, bei denen ein Erfolg genügt. pass^k misst, ob der Agent bei allen k Versuchen erfolgreich ist. 75% Erfolgsrate pro Versuch ergibt nur ~42% pass^3. Das ist die Metrik für kundenorientierte Agenten, da Unzuverlässigkeit bei jeder vierten Interaktion inakzeptabel ist.

Welche Benchmarks sind 2026 für KI-Agenten relevant?

Die fünf meistzitierten Benchmarks sind GAIA (allgemeine KI-Assistenz, Bestwert 61% auf Level 3), SWE-bench Verified (Coding-Agenten, Bestwerte über 70%), Tau-Bench (Kundenservice-Zuverlässigkeit mit pass^k), WebArena (Browser-Aufgaben, Verbesserung von 14% auf 60% in zwei Jahren) und BrowseComp (komplexe Web-Recherche). Maßgeschneiderte Evals auf eigenen Daten sind immer aussagekräftiger als Benchmark-Scores.

Welche Tools gibt es für KI-Agent-Evaluierung?

LangSmith (LangChains Plattform für Tracing und Evaluation), Braintrust (vereinte Eval- und Produktionsüberwachung) und Evidently AI (Open Source mit über 25 Mio. Downloads) sind am weitesten verbreitet. LangSmith eignet sich für LangGraph-Teams. Braintrust passt zu Full-Stack-Teams. Evidently AI ist ideal für Open-Source-Teams, die synthetische Datengenerierung und adversariale Tests benötigen.

Ist KI-Agent-Testing nach dem EU AI Act Pflicht?

Für Hochrisiko-KI-Systeme ja. Artikel 9 des EU AI Act verlangt ein Risikomanagementsystem mit Identifizierung und Analyse bekannter Risiken. Unternehmen müssen dokumentieren, wie sie ihre Agenten getestet haben, welche Szenarien abgedeckt wurden und wie mit Schwächen umgegangen wird. Recruiting-KI, Kreditvergabe und medizinische Diagnostik fallen unter die Hochrisiko-Kategorie.

Titelbild von Tudor Baciu auf Unsplash Source