Foto von Unsplash (CC0) Source

Klarnas KI-Agent bewältigte 2,3 Millionen Kundengespräche im ersten Monat, ersetzte 700 menschliche Servicemitarbeiter und sparte dem Unternehmen 60 Millionen Dollar. Kein Multi-Agenten-Schwarm, kein Orchestrierungs-Framework, kein Supervisor-Agent, der an Spezialisten delegiert. Ein Modell, ein Prompt, ein klar definierter Aufgabenbereich. Es funktionierte hervorragend, bis Klarna versuchte, den Scope über das Sinnvolle hinaus auszuweiten: Wiederholte Kontakte stiegen um 25%, und das Unternehmen begann, Menschen wieder einzustellen.

Die meisten Beobachter leiteten daraus ab: “KI-Agenten funktionieren.” Die eigentliche Lektion lautet: Ein einzelner, klar eingegrenzter Agent übertrifft die meisten Multi-Agenten-Architekturen. Der Drang, immer mehr Agenten hinzuzufügen, ist selbst die Falle.

Weiterlesen: Multi-Agent-Orchestrierungsplattformen im Vergleich: Was 2026 wirklich funktioniert

Die Mathematik, die Multi-Agenten-Systeme killt

Eine Analyse von Towards Data Science mit dem Titel “The Multi-Agent Trap” hat quantifiziert, was Praktiker seit Monaten spüren: Mehr Agenten in ein System zu packen addiert keine Fähigkeiten linear. Es multipliziert Fehlerquellen exponentiell.

Zusammengesetzter Zuverlässigkeitsverfall

Wenn ein einzelner Agent einen Schritt mit 99% Zuverlässigkeit abschließt, klingt das exzellent. Verkette zehn sequenzielle Schritte über eine Multi-Agenten-Pipeline und die Ende-zu-Ende-Zuverlässigkeit fällt auf 90,4%. Bei 95% pro Schritt sind es nur noch 59,9%. Bei 90% pro Schritt (durchaus üblich bei komplexem Reasoning) liefern zehn Agenten 34,9% Zuverlässigkeit. Jeder dritte Durchlauf scheitert.

Das ist nicht nur Theorie. Die Begleitanalyse “Why Your Multi-Agent System is Failing” hat einen Fehlerverstärkungsfaktor von 17,2x in unabhängigen Multi-Agenten-Systemen gemessen. Ohne Mechanismen zur gegenseitigen Überprüfung propagieren Fehler nicht nur: sie potenzieren sich. Zentralisierte Architekturen mit einem Supervisor-Agenten begrenzten die Verstärkung auf 4,4x, immerhin besser, aber immer noch eine Vervierfachung jedes Fehlers.

Die Koordinationssteuer

Koordinationsaufwand verursacht 36,9% aller Multi-Agenten-Systemausfälle. Zwei Agenten, die mehrdeutige Anweisungen erhalten, interpretieren sie unterschiedlich. Ein Planer-Agent erstellt einen Aufgabengraphen, aber der Ausführer-Agent parst ihn minimal anders. Der Abrechnungs-Agent und der Erstattungs-Agent aktualisieren denselben Kundendatensatz mit widersprüchlichen Daten.

Dazu kommt ein harter Kostenfaktor. Ein Dokumentenanalyse-Workflow, der mit einem einzigen Agenten 10.000 Tokens verbraucht, benötigt bei einer Vier-Agenten-Implementierung 35.000 Tokens: ein 3,5-facher Kostenmultiplikator, noch bevor Retries und Fehlerbehandlung eingerechnet werden. Für ein deutsches Mittelstandsunternehmen, das 100.000 Dokumente pro Monat verarbeitet, ist das der Unterschied zwischen einer monatlichen API-Rechnung von 15.000 und 52.500 Euro.

Die Vier-Agenten-Obergrenze

Die TDS-Analyse identifizierte eine Koordinationsschwelle: Gewinne durch zusätzliche Agenten stagnieren ab vier Agenten. Unterhalb von vier überwiegen die Vorteile der Spezialisierung die Koordinationskosten. Darüber hinaus verbraucht der Overhead für Inter-Agenten-Kommunikation, Zustandssynchronisation und Konfliktlösung alles, was die zusätzlichen Agenten einbringen.

Das deckt sich mit den Ergebnissen von Google und MIT, die 180 Agenten-Konfigurationen über verschiedene Aufgabentypen getestet haben. Ihre im Dezember 2025 veröffentlichte Studie lieferte die ersten quantitativen Skalierungsprinzipien für Agentensysteme.

Weiterlesen: KI-Agenten im Kundenservice: Was CX-Automatisierung richtig (und falsch) macht

Googles 180-Konfigurationen-Studie: Das wissenschaftliche Urteil

Google Research und MIT testeten Agentensysteme im großen Maßstab, um eine Frage zu beantworten, die die Branche seit Monaten umschifft: Wann hilft es wirklich, mehr Agenten hinzuzufügen?

Die Ergebnisse teilen sich klar nach Aufgabentyp.

Sequenzielle Reasoning-Aufgaben (Planung, mehrstufige Logik, Debugging): Jede Multi-Agenten-Variante verschlechterte die Leistung um 39-70% im Vergleich zu einem einzelnen Agenten. Der Grund ist spezifisch: Kommunikationsaufwand fragmentiert die Reasoning-Kette. Wenn ein einzelner Agent ein Problem durchdenkt, behält er den vollständigen Kontext über alle Schritte. Verteilt man dieses Reasoning auf mehrere Agenten, arbeitet jeder mit einem Teilbild. Die Übergabepunkte zwischen Agenten werden zu Informationsengpässen, an denen Nuancen verloren gehen.

Parallelisierbare Aufgaben (Finanzanalysen über mehrere Datensätze, Recherche über mehrere Quellen): Zentralisierte Koordination verbesserte die Leistung um 80,9%. Wenn sich die Arbeit tatsächlich in unabhängige Teilprobleme zerlegen lässt, die gleichzeitig laufen können, spielen Multi-Agenten-Systeme ihre Stärke aus.

Die Studie führte ein prädiktives Modell ein, das die optimale Architektur für 87% unbekannter Aufgaben identifiziert. Die Kernvariable: Lässt sich die Aufgabe in unabhängige Teilprobleme zerlegen, oder erfordert sie sequenzielles Reasoning? Wenn sequenziell: ein Agent. Wenn parallelisierbar: mehrere Agenten mit zentralem Koordinator.

Das ist keine Geschmacksfrage. Es ist messbar.

Klarnas 60-Millionen-Dollar-Lektion

Klarnas KI-Kundenservice-Agent wurde im Februar 2024 zum Aushängeschild für Enterprise-KI. Die Zahlen waren beeindruckend:

  • 2,3 Millionen Gespräche im ersten Monat
  • Zwei Drittel aller Kundenservice-Chats autonom bearbeitet
  • Lösungszeit von 11 Minuten auf unter 2 Minuten gesenkt
  • Arbeitsleistung von 700 Vollzeitmitarbeitern
  • Verfügbar in 23 Märkten, über 35 Sprachen, rund um die Uhr

Die finanzielle Wirkung war konkret. Kosten pro Kundenservice-Transaktion sanken um 40% über zwei Jahre: von 0,32 Dollar im Q1 2023 auf 0,19 Dollar im Q1 2025. Projizierte Einsparungen von 40 Millionen wurden zu tatsächlichen 60 Millionen Dollar.

Aber Klarna baute keinen Multi-Agenten-Schwarm. Sie bauten einen Agenten mit Zugang zu einer Wissensdatenbank, eingegrenzt auf die 60-70% der Tickets, die vorhersehbaren Mustern folgen: Bestellverfolgung, Rückerstattungsrichtlinien, FAQ-Antworten. Ein Modell. Ein Prompt. Eine Aufgabe.

Wo der Einzelagent scheiterte

Bis Mitte 2025 waren wiederholte Kontakte um 25% gestiegen. Jeder vierte Kunde kam zurück, weil sein Anliegen nicht wirklich gelöst war. Die Kundenzufriedenheit sank Berichten zufolge um rund 22%. CEO Sebastian Siemiatkowski räumte öffentlich ein: “Wir haben uns zu sehr auf Effizienz und Kosten konzentriert. Das Ergebnis war niedrigere Qualität, und das ist nicht nachhaltig.”

Klarna begann, menschliche Servicemitarbeiter wieder einzustellen und wechselte zu einem Hybridmodell. Die Reaktion vieler Beobachter war: “Sieht man, die brauchten ein Multi-Agenten-System.” Aber das ist eine Fehlinterpretation. Der Einzelagent scheiterte nicht, weil er allein war. Er scheiterte, weil Klarna seinen Scope über das Machbare hinaus erweiterte: komplexe Streitfälle, systemübergreifende Beschwerden, emotional aufgeladene Gespräche, die Urteilsvermögen erfordern, nicht Mustererkennung.

Die Lösung waren nicht mehr Agenten. Es war besseres Scoping dessen, was der Einzelagent übernehmen soll, plus menschliche Eskalation für den Rest.

Weiterlesen: Warum 95% aller KI-Agent-Piloten scheitern: Die MIT-Daten und was Überlebende anders machen

Akademische Evidenz: 41-86% Fehlerquoten

Eine Studie vom März 2025 analysierte über 1.600 annotierte Traces aus sieben populären Multi-Agenten-Frameworks und fand Fehlerquoten von 41-86,7% im Produktionsbetrieb. Die Aufschlüsselung offenbart etwas Kontraintuitives: 79% der Fehler stammen aus Spezifikations- und Koordinationsproblemen, nicht aus den zugrundeliegenden Modellen.

Die Forscher führten das MAST-Framework ein (Misalignment, Ambiguity, Specification errors, Termination gaps):

Misalignment: Agenten interpretieren dieselbe Anweisung unterschiedlich. Agent A versteht “fasse das Dokument zusammen” als drei Stichpunkte. Agent B versteht es als einen Absatz. Der Orchestrator akzeptiert beide Formate und produziert inkonsistenten Output.

Ambiguity: Übergabeprotokolle lassen Lücken. Wer behandelt Grenzfälle, die zwischen die Zuständigkeitsbereiche zweier Agenten fallen? Die Antwort ist meistens: niemand. Der Kunde steckt fest.

Specification errors: Der Prompt, der für einen Agenten funktioniert, erzeugt unerwartetes Verhalten, wenn ein anderer Agent Daten in einem leicht abweichenden Format übergibt.

Termination gaps: Das System weiß nicht, wann es aufhören soll. Ein Fehlerbehandlungs-Agent wiederholt eine gescheiterte Operation endlos, weil niemand eine Abbruchbedingung definiert hat.

Die maximale Verbesserung mit besserem Systemdesign (gleiches Basismodell) betrug 15,6%. Die Architekturobergrenze ist real.

Die Branchendebatte: Cognition gegen Anthropic

Die Spannung zwischen Einzel- und Multi-Agenten-Ansätzen kristallisierte sich im Juni 2025 heraus, als zwei Unternehmen innerhalb von 24 Stunden gegensätzliche Empfehlungen veröffentlichten.

Cognition Labs (das Team hinter Devin, dem KI-Coding-Agenten) publizierte “Don’t Build Multi-Agents”. Ihr Argument: Multi-Agenten-Architekturen erzeugen fragile Systeme durch mangelhaften Kontextaustausch und widersprüchliche Entscheidungen. Konkretes Beispiel: Beim Bau eines Flappy-Bird-Spiels erstellte ein Agent grüne Rohre mit bestimmten Hitboxen, während ein anderer den Vogel mit inkompatiblen Dimensionen kreierte. Keiner hatte Kontext über die Arbeit des anderen. Das Ergebnis: ein Spiel, in dem der Vogel physisch nicht durch die Rohre passte.

Cognitions Fazit: “Context Engineering ist praktisch Job Nummer eins für Ingenieure, die KI-Agenten bauen.” Die Verbesserung des Einzelagenten-Kontexts sei produktiver als Arbeit auf mehrere Agenten zu verteilen, die jeweils weniger sehen.

Anthropic antwortete mit “How We Built Our Multi-Agent Research System” und zeigte, dass ihr Claude Opus 4 Lead-Agent mit Claude Sonnet 4 Sub-Agenten den Einzelagenten Claude Opus 4 um 90,2% auf internen Forschungs-Benchmarks übertraf.

Der Haken: Anthropics Anwendungsfall war spezifisch parallelisierbar. Board-Mitglieder aller S&P 500 IT-Unternehmen zu finden zerlegt sich perfekt in 500 unabhängige Einzelabfragen. Keine sequenziellen Abhängigkeiten, kein geteilter Zustand, keine Koordination über “Ergebnisse einsammeln” hinaus.

Beide Unternehmen hatten recht. Sie lösten nur unterschiedliche Problemtypen.

Wann ein Agent reicht und wann nicht

Die Datenlage führt zu einem Entscheidungsrahmen, der simpler ist, als die meisten Architekten wahrhaben wollen:

Einen einzelnen Agenten verwenden, wenn:

  • Die Aufgabe sequenzielles Reasoning erfordert (ein Schluss baut auf dem vorherigen auf)
  • Vollständiger Kontext bei jedem Schritt nötig ist (Rechtsanalyse, Debugging, Dokumentenprüfung)
  • Der Workflow Elemente einzeln verarbeitet
  • Ende-zu-Ende-Zuverlässigkeit über 90% erforderlich ist
  • Das Budget keinen 3,5-fachen Token-Overhead hergibt

Mehrere Agenten verwenden, wenn:

  • Die Arbeit sich in echte unabhängige Teilaufgaben zerlegen lässt
  • Teilaufgaben parallel laufen können, ohne Zustand zu teilen
  • Ein zentraler Koordinator Ergebnisse zusammenführen kann, ohne Konflikte lösen zu müssen
  • Der Parallelisierungsgewinn die Koordinationskosten rechtfertigt
  • Maximal vier Agenten im Einsatz sind

Keine Multi-Agenten-Architektur bauen, nur weil:

  • Der Workflow mehrere Schritte hat (sequenzielle Schritte sind mit einem Agenten und klarem Prompt besser bedient)
  • Man “Spezialisierung” will (ein Agent mit rollenspezifischen Anweisungen und Tools übertrifft oft zwei kommunizierende Agenten)
  • Ein Multi-Agenten-Demo beeindruckend aussah (Demos optimieren für Beeindruckung, Produktion für Zuverlässigkeit)
  • Ein Anbieter eine Multi-Agenten-Plattform verkauft (Gartner prognostiziert, dass über 40% der Agentic-AI-Projekte bis Ende 2027 eingestellt werden)

McKinseys “One Year of Agentic AI” Bericht bringt es nach der Analyse von über 50 Agentic-AI-Projekten auf den Punkt: “It’s not about the agent; it’s about the workflow. Agents aren’t always the answer.”

Weiterlesen: Gartner: Über 40% der Agentic-AI-Projekte werden bis 2027 eingestellt

Häufig gestellte Fragen

Was ist die Multi-Agenten-Falle in der KI?

Die Multi-Agenten-Falle beschreibt die Tendenz, einem KI-System immer mehr Agenten hinzuzufügen, obwohl ein einzelner, klar eingegrenzter Agent besser abschneiden würde. Forschung zeigt, dass die Verkettung von Agenten zusammengesetzten Zuverlässigkeitsverfall erzeugt (99% Zuverlässigkeit pro Schritt sinkt auf 90,4% über 10 Agenten), einen 3,5-fachen Kostenmultiplikator verursacht und Koordinationsaufwand 37% aller Multi-Agenten-Systemausfälle ausmacht.

Wann sollte man einen einzelnen KI-Agenten statt eines Multi-Agenten-Systems einsetzen?

Einen einzelnen Agenten bei sequenziellen Reasoning-Aufgaben einsetzen (Planung, Debugging, Dokumentenprüfung), bei denen vollständiger Kontext bei jedem Schritt nötig ist. Googles 180-Konfigurationen-Studie ergab, dass Multi-Agenten-Varianten die Leistung bei sequenziellen Aufgaben um 39-70% verschlechterten. Multi-Agenten-Systeme sind nur bei echt parallelisierbaren, unabhängigen Teilaufgaben überlegen.

Wie hat Klarnas einzelner KI-Agent 700 Mitarbeiter ersetzt?

Klarna setzte einen KI-Agenten (basierend auf OpenAI) ein, der auf vorhersehbare Kundenservice-Anfragen begrenzt war: Bestellverfolgung, Rückerstattungsrichtlinien und FAQ-Antworten. Er bearbeitete 2,3 Millionen Gespräche im ersten Monat, senkte die Lösungszeit von 11 auf unter 2 Minuten und sparte 60 Millionen Dollar. Der Agent funktionierte innerhalb seines Scope, scheiterte aber, als Klarna ihn auf komplexe Streitfälle ausweitete, was zu einem 25%igen Anstieg wiederholter Kontakte führte.

Was ist zusammengesetzter Zuverlässigkeitsverfall bei Multi-Agenten-KI-Systemen?

Zusammengesetzter Zuverlässigkeitsverfall bedeutet, dass jeder Agent in einer sequenziellen Kette die Fehlerwahrscheinlichkeit multipliziert. Bei 95% Zuverlässigkeit pro Schritt produzieren zehn Schritte nur 59,9% Ende-zu-Ende-Zuverlässigkeit. Bei 90% pro Schritt (üblich bei komplexem Reasoning) kommt man auf 34,9% über zehn Agenten. Unabhängige Multi-Agenten-Systeme verstärken Fehler um das 17,2-fache ohne gegenseitige Kontrollmechanismen.

Was ist die optimale Anzahl von KI-Agenten in einem Multi-Agenten-System?

Forschung identifiziert eine Vier-Agenten-Obergrenze: Koordinationsgewinne stagnieren ab vier Agenten. Unterhalb von vier überwiegen die Vorteile der Spezialisierung die Koordinationskosten. Darüber verbraucht der Overhead für Inter-Agenten-Kommunikation, Zustandssynchronisation und Konfliktlösung alles, was zusätzliche Agenten einbringen. Googles Studie bestätigt: Zentralisierte Koordination mit wenigen Agenten funktioniert bei parallelisierbaren Aufgaben, während sequenzielle Aufgaben einen einzelnen Agenten nutzen sollten.