Foto von Pexels (freie Lizenz) Source

Ein KI-Agent, der 90% seiner Aufgaben löst, klingt nach einem Kandidaten für den Produktiveinsatz. Ist er aber nicht, solange die restlichen 10% unberechenbar scheitern. Dann muss trotzdem ein Mensch jeden Durchlauf überwachen, und der vermeintliche Automatisierungsgewinn löst sich in Luft auf. Princeton-Forscher Sayash Kapoor und Arvind Narayanan (Autoren von AI Snake Oil) haben dieses Problem jetzt in einem 66-seitigen Paper formalisiert. Ihre zentrale These: Die Branche misst KI-Agenten falsch, und dieser Messfehler verdeckt eine Zuverlässigkeitskrise.

Das Paper “Towards a Science of AI Agent Reliability” schlägt zwölf konkrete Metriken in vier Dimensionen vor. Die Forscher haben 14 Frontier-Modelle über zwei Benchmarks und 18 Monate hinweg evaluiert. Das zentrale Ergebnis: Die Genauigkeit ist in diesem Zeitraum deutlich gestiegen. Die Zuverlässigkeit kaum.

Weiterlesen: KI-Agent Zuverlässigkeit: Warum OpenAI und Anthropic zu Beratern werden

Warum die Durchschnittsgenauigkeit das Problem verschleiert

Jeder große Agent-Benchmark funktioniert gleich: Agent über Aufgaben laufen lassen, Erfolge zählen, durch Gesamtzahl teilen, Prozentsatz veröffentlichen. SWE-bench Verified, WebArena, GAIA: Sie alle verdichten die Leistung eines Agenten auf eine einzige Zahl. Diese Zahl steigt alle paar Monate, und die Pressemitteilungen feiern den Fortschritt.

Das Princeton-Team argumentiert, dass diese Methode grundlegend irreführend ist. Eine einzelne Erfolgsquote komprimiert alles weg, was für den Einsatz relevant ist. Ein Agent mit 85% Genauigkeit könnte einer sein, der zuverlässig 85% der Aufgabentypen löst und die übrigen 15% konsistent nicht schafft. Dieser Agent ist nützlich: Man kann die schweren Aufgaben an Menschen weiterleiten und den Rest automatisieren. Oder es handelt sich um einen Agenten, der bei jedem Durchlauf eine andere zufällige 85% der Aufgaben löst. Gleiche Genauigkeit, völlig anderes Betriebsprofil. Der zweite Agent ist für Automatisierung praktisch unbrauchbar.

Wie die Autoren schreiben: “An agent that succeeds on 90% of tasks but fails unpredictably on the remaining 10% may be a useful assistant yet an unacceptable autonomous system.” Diese Unterscheidung zwischen Assistent (Mensch überwacht) und autonomem System (kein Mensch im Loop) ist der Kern des Papers.

Weiterlesen: KI-Agent Benchmarks erklärt: Was SWE-bench, WebArena und AgentBench wirklich messen

Die vier Dimensionen der Agent-Zuverlässigkeit

Das Framework übernimmt Konzepte aus Jahrzehnten Zuverlässigkeitstechnik in der Luftfahrt, Kernkraft, Automobilindustrie und industriellen Prozesskontrolle. Diese Branchen haben längst verstanden, dass “funktioniert meistens” kein Sicherheitsstandard ist. Das Princeton-Team überträgt diese Prinzipien auf KI-Agenten mit vier Dimensionen und zwölf Metriken.

Konsistenz: Liefert der Agent zweimal dasselbe Ergebnis?

Konsistenz misst, ob ein Agent bei gleicher Aufgabe dieselben Ergebnisse produziert, dieselben Schritte geht und ähnliche Ressourcen verbraucht. Drei Metriken:

  • Outcome-Konsistenz: Kommt der Agent bei mehreren Durchläufen zum selben Ergebnis?
  • Trajektorie-Konsistenz: Nimmt er denselben Weg dorthin?
  • Ressourcen-Konsistenz: Verbraucht er ähnlich viel Rechenleistung und Tool-Aufrufe?

Ein Agent mit hoher Genauigkeit, aber niedriger Outcome-Konsistenz löst eine Aufgabe bei einigen Durchläufen und scheitert bei anderen, ohne dass sich extern etwas geändert hat. Das ist die gefährlichste Zuverlässigkeitslücke, weil man nicht vorhersagen kann, ob ein einzelner Durchlauf erfolgreich sein wird.

Robustheit: Bricht er zusammen, wenn sich Bedingungen ändern?

Robustheit prüft, ob der Agent standhält, wenn Eingaben oder Bedingungen leicht variieren:

  • Fehlertoleranz: Erholt er sich von Tool-Ausfällen oder API-Fehlern?
  • Umgebungsrobustheit: Funktioniert er noch, wenn sich externe Bedingungen ändern?
  • Prompt-Robustheit: Führt eine Umformulierung derselben Anfrage zu anderen Ergebnissen?

Die meisten Agenten werden unter Idealbedingungen evaluiert. Das Paper testet, was passiert, wenn die Bedingungen lediglich realistisch sind.

Vorhersagbarkeit: Weiß der Agent, wann er falsch liegt?

Diese Dimension misst die Kalibrierung, also die Fähigkeit des Agenten, Unsicherheit zu signalisieren, wenn er wahrscheinlich scheitern wird:

  • Kalibrierung: Wenn der Agent 80% Konfidenz angibt, gelingt die Aufgabe dann tatsächlich in etwa 80% der Fälle?
  • Diskrimination: Kann er zwischen Aufgaben unterscheiden, die er lösen wird, und solchen, bei denen er scheitern wird?
  • Brier-Score: Ein zusammengesetztes Maß für die Vorhersagegenauigkeit.

Ein gut kalibrierter Agent ist operativ wertvoll, selbst wenn er scheitert, weil er vorher warnt. Ein schlecht kalibrierter Agent scheitert stillschweigend, was deutlich schlimmer ist.

Sicherheit: Wie schlimm sind die Fehler?

Die letzte Dimension fragt nicht “scheitert er?”, sondern “wie viel Schaden richtet das Scheitern an?” Zwei Metriken:

  • Compliance: Hält sich der Agent an Aufgabenbeschränkungen und -grenzen?
  • Schadenschwere: Wenn er scheitert, sind die Folgen gering (falsches Format) oder katastrophal (gelöschte Produktionsdatenbank)?

Ein gut kalibrierter Agent mit begrenzter Schadenschwere ist auch bei mittlerer Genauigkeit einsetzbar. Ein unkalibrierter Agent mit unbegrenzter Schadenschwere ist selbst bei 95% Genauigkeit gefährlich. Das deckt sich mit den Anforderungen des EU AI Act, der für Hochrisikosysteme explizit Robustheits- und Sicherheitsnachweise verlangt.

Was 14 Modelle tatsächlich ergeben haben

Das Paper evaluiert Modelle aus 18 Monaten Entwicklung bei OpenAI, Anthropic und Google. Die Aufstellung umfasst GPT-4o mini bis GPT-5.2 von OpenAI, Claude 3.5 Haiku bis Claude 4.5 Opus von Anthropic und Gemini 2 Flash bis Gemini 3 Pro von Google. Die Ergebnisse sind ernüchternd.

Genauigkeit rauf, Zuverlässigkeit stagniert

Über die 18 Monate hat sich die reine Genauigkeit bei allen Modellfamilien deutlich verbessert. Die Zuverlässigkeit, gemessen an den zwölf Metriken, hat sich dagegen nur geringfügig verbessert. Die Schere zwischen Fähigkeit und Zuverlässigkeit geht auseinander, nicht zusammen.

Größere Modelle sind nicht durchgehend besser

Das war der überraschendste Befund. Innerhalb einer Modellfamilie verbessert ein größeres Modell zwar Kalibrierung und Robustheit, verschlechtert aber oft die Konsistenz. Die Erklärung: Größere Modelle haben mehr Lösungsstrategien. Das ist gut für die Genauigkeit. Aber es bedeutet, dass sie bei verschiedenen Durchläufen unterschiedliche Ansätze wählen, was die Konsistenz senkt.

Ein kleineres Modell, das nur einen Lösungsweg kennt, geht diesen Weg jedes Mal. Ein größeres Modell mit fünf Ansätzen wählt bei jedem Durchlauf einen anderen. Beide erreichen vielleicht 90% Genauigkeit, aber das kleinere ist konsistenter.

Kalibrierung als Lichtblick

Claude-Modelle zeigten über beide Benchmarks hinweg eine besonders starke Kalibrierung, mit gut ausgerichteten Konfidenzschätzungen auch bei steigender Aufgabenkomplexität. Das ist wichtig, weil Kalibrierung die Dimension ist, die Mensch-Agent-Zusammenarbeit praktikabel macht: Wenn der Agent zuverlässig Unsicherheit signalisiert, kann ein Mensch genau bei den richtigen Aufgaben eingreifen.

Konsistenz und Vorhersagbarkeit brauchen die meiste Arbeit

Das Paper identifiziert Konsistenz und Vorhersagbarkeit als die Dimensionen, die “sofortige Forschungsaufmerksamkeit” benötigen. Die Outcome-Konsistenz bleibt über alle Modelle hinweg niedrig: Agenten, die eine Aufgabe lösen können, schaffen es oft nicht, sie konsistent zu lösen. Die Verteilungskonsistenz (ähnliche Aktionstypen) ist besser als die Sequenzkonsistenz (Reihenfolge der Operationen).

Weiterlesen: KI-Agent Testing: Wie man nicht-deterministische Systeme testet

Was das für den DACH-Raum bedeutet

Für Unternehmen im deutschsprachigen Raum hat das Paper besondere Relevanz. Der EU AI Act verlangt für Hochrisiko-KI-Systeme explizit Nachweise zu Robustheit, Genauigkeit und Cybersicherheit. Die DSGVO fordert bei automatisierten Entscheidungen Transparenz und Nachvollziehbarkeit. Das Princeton-Framework liefert erstmals einen konkreten Metrikkatalog, mit dem sich diese regulatorischen Anforderungen operationalisieren lassen.

Evaluierungen mehrfach durchlaufen

Wer seine Evaluierungssuite nur einmal durchlauft und das Ergebnis meldet, verschleiert die eigenen Zuverlässigkeitslücken. Das Paper empfiehlt, jede Aufgabe mehrfach zu testen und die Varianz neben der Genauigkeit zu berichten. Eine Aufgabe, die 9 von 10 Durchläufen besteht, ist nicht dasselbe wie eine, die 10 von 10 besteht.

Dimension zum Anwendungsfall matchen

Nicht alle vier Dimensionen sind für jedes Deployment gleich wichtig. Ein Coding-Agent, bei dem ein Mensch jeden Diff prüft, braucht vor allem gute Kalibrierung. Ein autonomer Kundenservice-Agent braucht vor allem Konsistenz und Sicherheit. Ein Datenpipeline-Agent braucht vor allem Robustheit.

Zuverlässigkeit bei Modellupdates tracken

Das Paper zeigt, dass Modellupdates innerhalb derselben Familie die Genauigkeit verbessern und gleichzeitig bestimmte Zuverlässigkeitsdimensionen verschlechtern können. Wer ein Modell-Upgrade einspielt, sollte nicht nur die Genauigkeit, sondern das vollständige Zuverlässigkeitsprofil testen.

Das Princeton-Team plant die Einführung eines KI-Agent Reliability Index, um diese Metriken systematisch über Releases hinweg zu verfolgen. Bis dahin bieten die zwölf Metriken aus dem Paper eine konkrete Checkliste für jede Agent-Evaluierung vor dem Deployment.

Weiterlesen: Ziel vs. Regeln: Der KI-Agent Safety-Benchmark, bei dem 71% der Modelle Grenzen überschreiten

Häufig gestellte Fragen

Was sind die vier Dimensionen der KI-Agent Zuverlässigkeit?

Princeton-Forscher definieren vier Dimensionen: Konsistenz (gleiche Ergebnisse bei wiederholten Durchläufen), Robustheit (Stabilität bei veränderten Bedingungen), Vorhersagbarkeit (kalibrierte Unsicherheitssignale) und Sicherheit (begrenzte Schadenschwere bei Fehlern). Jede Dimension hat drei Metriken, insgesamt zwölf konkrete Messgrößen.

Warum reicht die Genauigkeit nicht aus, um KI-Agent Zuverlässigkeit zu messen?

Eine einzelne Genauigkeitszahl verbirgt kritische Betriebsinformationen. Ein Agent mit 90% Genauigkeit, der bei jedem Durchlauf bei zufälligen 10% scheitert, ist weit weniger nützlich als einer, der konsistent bei denselben 10% scheitert. Der erste kann nicht sicher automatisiert werden; der zweite schon, weil man seine Fehlerfälle an Menschen weiterleiten kann.

Bedeuten größere KI-Modelle zuverlässigere KI-Agenten?

Nicht durchgehend. Princetons Studie mit 14 Modellen zeigt, dass größere Modelle zwar Kalibrierung und Robustheit verbessern, aber die Konsistenz verschlechtern können. Größere Modelle haben mehr Lösungsstrategien, was die Varianz zwischen Durchläufen erhöht. Kleinere Modelle derselben Familie schneiden bei der Konsistenz manchmal besser ab.

Wie sollten Teams KI-Agent Zuverlässigkeit vor dem Deployment evaluieren?

Jede Evaluierung mehrfach durchführen und Varianz neben Genauigkeit berichten. Zuverlässigkeitsprofile passend zum spezifischen Anwendungsfall erstellen. Zuverlässigkeit bei Modellupdates tracken, da Genauigkeitsverbesserungen keine Zuverlässigkeitsverbesserungen garantieren. Kalibrierungswerte als Routing-Signal zwischen autonomen und menschlich geprüften Pfaden nutzen.

Welche Relevanz hat das Princeton-Framework für den EU AI Act?

Der EU AI Act verlangt für Hochrisiko-KI-Systeme Nachweise zu Robustheit, Genauigkeit und Cybersicherheit. Das Princeton-Framework mit seinen zwölf Metriken liefert erstmals einen konkreten, wissenschaftlich fundierten Metrikkatalog, mit dem sich diese regulatorischen Anforderungen operationalisieren und dokumentieren lassen.