Foto von Markus Spiske auf Pexels Source

Mehr KI-Agenten in ein System zu werfen kann die Leistung um bis zu 70% verschlechtern. Das ist keine Vermutung, sondern das zentrale Ergebnis einer kontrollierten Studie von Google Research und dem MIT, die 180 Agenten-Konfigurationen über vier Benchmarks und drei LLM-Familien (OpenAI, Google, Anthropic) evaluiert hat. Dieselbe zentralisierte Architektur, die bei Finanzanalysen die Genauigkeit um 81% steigerte, machte sequenzielle Planungsaufgaben drastisch schlechter. Der Unterschied liegt nicht an den Agenten. Er liegt an der Aufgabe.

Das ist relevant, weil die vorherrschende Annahme 2026 lautet: Multi-Agent-Systeme sind grundsätzlich besser. Gestützt durch Framework-Marketing und Konferenz-Demos. Sind sie aber nicht. Die Forschung liefert das erste quantitative Framework, um vorherzusagen, wann zusätzliche Agenten helfen und wann sie schaden.

Weiterlesen: Multi-Agent-Orchestrierung: So arbeiten KI-Agenten zusammen

Was Google und das MIT tatsächlich getestet haben

Das Paper mit dem Titel “Towards a Science of Scaling Agent Systems” evaluierte fünf kanonische Agenten-Architekturen: Einzel-Agent, unabhängige Multi-Agent-Systeme, zentralisiert (ein Orchestrator koordiniert Worker), dezentralisiert (Agenten kommunizieren direkt untereinander) und hybrid (Mischung aus zentralisiert und dezentralisiert). Jede Architektur wurde mit Modellen von OpenAI, Google und Anthropic über vier agentenbasierte Benchmarks hinweg instanziiert.

Die Benchmarks deckten bewusst verschiedene Domänen ab. Finance-Agent testete Finanzanalysen, bei denen mehrere Datenquellen parallel ausgewertet werden konnten. BrowseComp-Plus testete Web-Navigation. PlanCraft testete sequenzielle Spielplanung, bei der jeder Schritt vom vorherigen abhängt. Workbench testete allgemeine Tool-Nutzungs-Workflows.

Diese Vielfalt macht die Ergebnisse glaubwürdig. Die Forscher haben nicht gezielt Aufgaben ausgewählt, bei denen Multi-Agent-Systeme glänzen. Sie testeten über das gesamte Spektrum und stellten fest, dass die Ergebnisse je nach Aufgabenstruktur komplett kippen.

Das 180-Konfigurationen-Raster

Fünf Architekturen, drei LLM-Familien, vier Benchmarks, mehrere Konfigurationsparameter pro Architektur. Insgesamt 180 verschiedene Konfigurationen, jeweils unter kontrollierten Bedingungen evaluiert. Das ist kein Blogpost, der behauptet “Wir haben CrewAI ausprobiert und es hat super funktioniert.” Es ist eine systematische Evaluation mit statistischen Kontrollen.

Der resultierende Datensatz ermöglichte den Forschern ein Vorhersagemodell zu entwickeln, das die optimale Koordinationsstrategie für 87% unbekannter Aufgaben korrekt identifiziert. Diese Vorhersagegenauigkeit ist der eigentliche Beitrag: Nicht nur “was hat funktioniert”, sondern ein Framework, um vorherzusagen, was für eure spezifische Aufgabe funktionieren wird.

Wann Multi-Agent-Systeme besser abschneiden

Bei parallelisierbaren Aufgaben waren die Ergebnisse eindeutig. Zentralisierte Multi-Agent-Koordination verbesserte die Leistung bei Finanzanalysen um 80,9% im Vergleich zu einem einzelnen Agenten.

Der Mechanismus ist nachvollziehbar. Finanzanalysen erfordern Daten aus mehreren Quellen: Geschäftsberichte, Marktdaten, regulatorische Filings, Nachrichtensentiment. Ein einzelner Agent muss das sequenziell abarbeiten und verschwendet Context-Window-Kapazität und Inferenzzeit für jeden Abruf, bevor er mit der Analyse beginnen kann. Ein zentralisiertes Multi-Agent-System weist jede Datenquelle einem anderen Agenten zu, sammelt deren Ergebnisse und übergibt die konsolidierten Daten an einen Synthese-Agenten.

Warum Parallelismus die entscheidende Variable ist

Der Leistungsgewinn kommt nicht von “mehr Köpfen.” Er kommt von der Zerlegung. Wenn sich eine Aufgabe sauber in unabhängige Teilaufgaben aufteilen lässt, die keinen gemeinsamen Zustand teilen oder sequenzielles Reasoning erfordern, reduzieren mehrere Agenten die Gesamtzeit und lassen jeden Agenten sein Context Window auf ein kleineres Problem fokussieren.

In der Praxis funktioniert das bei:

  • Research-Aggregation: Jeder Agent durchsucht eine andere Quelle (Patentdatenbanken, wissenschaftliche Papers, Marktberichte) und ein Koordinator führt die Ergebnisse zusammen
  • Multi-Markt-Analyse: Separate Agenten analysieren verschiedene geografische Märkte oder Produktkategorien gleichzeitig
  • Code Review im großen Maßstab: Verschiedene Agenten prüfen parallel unterschiedliche Aspekte (Sicherheit, Performance, Stil) derselben Codebase

Die gemeinsame Eigenschaft: Jeder Agent arbeitet unabhängig bis zum finalen Zusammenführungsschritt. Kein Agent braucht die Zwischenergebnisse eines anderen Agenten für seine Arbeit.

Weiterlesen: KI-Agent-Frameworks im Vergleich: LangGraph, CrewAI, AutoGen

Wann mehr Agenten die Ergebnisse verschlechtern

Bei sequenziellen Reasoning-Aufgaben verschlechterte jede Multi-Agent-Variante die Performance. PlanCraft, das Schritt-für-Schritt-Spielplanung erfordert, bei der jede Entscheidung auf der vorherigen aufbaut, verzeichnete Genauigkeitsverluste zwischen 39% und 70% über alle Multi-Agent-Konfigurationen hinweg.

Der Grund ist das, was die Forscher “Cognitive Budget Fragmentation” nennen. Eine sequenzielle Aufgabe erfordert, eine lange Reasoning-Kette im Arbeitsgedächtnis zu halten. Wenn man das auf Agenten verteilt, sieht jeder Agent nur sein Stück. Der Kommunikationsaufwand für die Kontextübergabe zwischen Agenten verbraucht Tokens, die sonst für das eigentliche Reasoning zur Verfügung stünden. Die Agenten verbrauchen ihr “kognitives Budget” für Koordination statt für Denken.

Fehlerfortpflanzung: Das 17-fache Verstärkungsproblem

Unabhängige Agenten (ohne zentralen Koordinator) können Fehler bis zum 17-fachen verstärken. Wenn Agent A einen Fehler macht und ihn an Agent B weitergibt, hat B keinen Mechanismus, um den Fehler zu erkennen oder zu korrigieren. B baut auf dem Fehler auf, verschlimmert ihn möglicherweise, und gibt das Ergebnis weiter. Am Ende der Kette hat sich ein kleiner Ausgangsfehler in eine grundlegend falsche Antwort verwandelt.

Zentralisierte Orchestrierung begrenzt die Verstärkung auf etwa das 4,4-fache. Der Orchestrator validiert Ausgaben, bevor er sie weiterleitet, und fängt einige Fehler ab. Das ist immer noch ein 4,4-facher Verstärkungsfaktor, aber eine massive Verbesserung gegenüber dem 17-fachen.

Für Produktionssysteme hat das direkte Konsequenzen. Wer eine Multi-Agent-Pipeline für Bereiche mit realen Auswirkungen baut (Finanzentscheidungen, medizinische Triage, juristische Dokumente), für den sind unabhängige Agenten-Architekturen ohne zentrale Validierung ein Risiko. Besonders relevant im DACH-Raum: Der EU AI Act verlangt bei Hochrisiko-KI-Systemen Nachvollziehbarkeit und Fehlerprotokollierung, was zentralisierte Architekturen von Haus aus besser leisten.

Drei Skalierungsprinzipien für Entwickler

Die Forschung verdichtet sich in drei Skalierungseffekten, die das Verhalten von Multi-Agent-Systemen dominieren. Wer diese Effekte versteht, kann vorhersagen, ob ein Multi-Agent-Ansatz hilft oder schadet, bevor überhaupt etwas gebaut wird.

1. Der Tool-Koordinations-Tradeoff

Je mehr Tool-Nutzung eine Aufgabe erfordert (API-Aufrufe, Web-Browsing, Datenbankabfragen), desto überproportional steigen die Koordinationskosten. Jeder Tool-Aufruf ist ein potenzieller Fehlerpunkt, und die Koordination der Tool-Nutzung über Agenten hinweg erzeugt Synchronisationsaufwand. Bei tool-intensiven Aufgaben schlägt ein einzelner Agent mit gut designtem Tool-Zugang oft ein Team von Agenten, die sich gegenseitig bei API-Aufrufen in die Quere kommen.

Die praktische Schwelle: Wenn eure Aufgabe mehr als 5 bis 7 verschiedene sequenzielle Tool-Interaktionen erfordert, wird ein einzelner Agent mit gutem Tool-Management wahrscheinlich ein Multi-Agent-Setup schlagen.

2. Fähigkeitssättigung

Multi-Agent-Koordination bringt abnehmende oder negative Erträge, sobald Einzel-Agent-Baselines ungefähr 45% Genauigkeit überschreiten. Wenn ein einzelner Agent eine Aufgabe bereits passabel bewältigt, pushen mehr Agenten die Performance kaum höher. Der Koordinationsaufwand frisst die marginalen Gewinne auf.

Das ist kontraintuitiv. Teams greifen oft genau bei ihren schwierigsten Problemen zu Multi-Agent-Architekturen. Aber wenn das Problem darin besteht, dass das zugrundeliegende Modell nicht leistungsfähig genug ist, löst die Verteilung der Arbeit auf mehrere Instanzen desselben Modells das Fähigkeitsdefizit nicht. Man bekommt nur dieselbe falsche Antwort aus mehr Richtungen, mit zusätzlicher Latenz und Kosten.

3. Topologie-abhängige Fehlerverstärkung

Die Wahl der Koordinationstopologie (zentralisiert, dezentralisiert, unabhängig) bestimmt, wie sich Fehler im System ausbreiten. Zentralisierte Orchestrierung fungiert als Engpass, der Fehler abfängt, aber auch als Flaschenhals, der den Durchsatz begrenzt. Dezentralisierte Koordination vermeidet den Flaschenhals, lässt aber Fehler unkontrolliert zwischen Peers fließen.

Die Forschung zeigte, dass Web-Navigationsaufgaben mit dezentralisierter Koordination besser funktionierten, während Finanzanalysen mit zentralisierter Orchestrierung besser liefen. Es gibt keine universell beste Topologie. Die richtige Wahl hängt davon ab, ob eure Aufgabe Durchsatz (dezentralisiert) oder Genauigkeit (zentralisiert) priorisiert.

Weiterlesen: Multi-Agent-Architekturmuster: Entscheidungsrahmen für das, was tatsächlich funktioniert
Weiterlesen: Claude Opus 4.6 Agent Teams: Multi-Agenten-Orchestrierung direkt im Terminal

So wählt ihr die richtige Agenten-Architektur

Das Vorhersagemodell aus der Forschung erreicht 87% Genauigkeit bei unbekannten Aufgaben, aber ihr braucht kein formales Modell, um die Kernlogik anzuwenden. Vier Fragen bringen euch den Großteil des Weges.

Lässt sich die Aufgabe in unabhängige Teilaufgaben zerlegen? Wenn ja, ist Multi-Agent-Koordination wahrscheinlich vorteilhaft. Wenn die Aufgabe inhärent sequenziell ist (jeder Schritt hängt vom vorherigen ab), wird ein einzelner Agent fast sicher besser abschneiden.

Löst ein einzelner Agent das bereits mit >45% Genauigkeit? Wenn ja, bringen zusätzliche Agenten abnehmende Erträge. Konzentriert euch stattdessen darauf, die Tools, Prompts oder das Modell des einzelnen Agenten zu verbessern.

Wie viele Tool-Interaktionen erfordert die Aufgabe? Hohe Tool-Anzahl (7+) mit sequenziellen Abhängigkeiten spricht für einen einzelnen Agenten. Hohe Tool-Anzahl mit unabhängigen Tools spricht für parallele Multi-Agent-Systeme.

Wie hoch sind die Kosten von Fehlern? Wenn sich Fehler gefährlich fortpflanzen (Finanz-, Medizin- oder Rechtsbereich), nutzt zentralisierte Orchestrierung. Wenn Fehler günstig zu beheben oder selbstkorrigierend sind, reichen dezentralisierte oder unabhängige Architekturen.

Die Kostenrealität

Multi-Agent-Systeme erhöhen die Token-Kosten um das 2- bis 6-fache im Vergleich zu Einzel-Agent-Ansätzen. Jede Koordinationsnachricht, jede Kontextübergabe, jede Validierungsprüfung verbraucht Tokens. Für eine Aufgabe, bei der ein einzelner Agent $0,10 an API-Kosten verursacht, kann ein Multi-Agent-Setup $0,20 bis $0,60 kosten, und es liefert möglicherweise schlechtere Ergebnisse, wenn die Aufgabe sequenziell ist.

Bevor ihr zu einem Multi-Agent-Framework greift, rechnet nach, ob der Parallelismus der Aufgabe den Kostenmultiplikator rechtfertigt. Bei einer Batch-Verarbeitungspipeline, die tausende Male pro Tag läuft, summiert sich ein 5-facher Kostenanstieg schnell.

Häufig gestellte Fragen

Wann sollte man Multi-Agent-KI-Systeme statt eines einzelnen Agenten einsetzen?

Multi-Agent-Systeme übertreffen einzelne Agenten bei parallelisierbaren Aufgaben, bei denen unabhängige Teilaufgaben gleichzeitig laufen können. Google Research fand eine 81% Leistungsverbesserung bei Finanzanalysen mit zentralisierter Multi-Agent-Koordination. Sequenzielle Aufgaben, bei denen jeder Schritt vom vorherigen abhängt, schneiden mit Multi-Agent-Architekturen jedoch 39-70% schlechter ab. Die Schlüsselfrage ist, ob sich eure Aufgabe in unabhängige Teile zerlegen lässt.

Wie viel kosten Multi-Agent-KI-Systeme im Vergleich zu einzelnen Agenten?

Multi-Agent-Systeme erhöhen die Token-Kosten um das 2- bis 6-fache im Vergleich zu Einzel-Agent-Ansätzen. Der Mehraufwand entsteht durch Koordinationsnachrichten, Kontextübergaben und Validierungsprüfungen zwischen Agenten. Bei hochvolumiger Batch-Verarbeitung summiert sich dieser Multiplikator erheblich. Ob sich die Kosten rechtfertigen, hängt ausschließlich davon ab, ob die Aufgabe von Parallelismus profitiert.

Was ist Fehlerfortpflanzung in Multi-Agent-Systemen?

Fehlerfortpflanzung tritt auf, wenn der Fehler eines Agenten durch nachgelagerte Agenten kaskadiert. Die Google- und MIT-Forschung zeigte, dass unabhängige Agenten (ohne zentralen Koordinator) Fehler bis zum 17-fachen verstärken können, während zentralisierte Orchestrierung die Verstärkung auf etwa das 4,4-fache begrenzt. Für Produktionssysteme im Finanz-, Medizin- oder Rechtsbereich macht das zentrale Validierung unverzichtbar.

Was bedeutet Fähigkeitssättigung bei der KI-Agenten-Skalierung?

Fähigkeitssättigung bedeutet, dass zusätzliche Agenten abnehmende oder negative Erträge bringen, sobald ein einzelner Agent bereits etwa 45% Genauigkeit bei einer Aufgabe erreicht. Wenn das zugrundeliegende Modell die Aufgabe eigenständig passabel bewältigt, löst die Verteilung auf mehrere Instanzen das Fähigkeitsdefizit nicht. Es kommt nur Koordinationsaufwand dazu.

Wie wählt man zwischen zentralisierter und dezentralisierter Agenten-Architektur?

Zentralisierte Architekturen leiten die gesamte Kommunikation über einen Orchestrator, der Ausgaben validiert. Sie eignen sich ideal für genauigkeitskritische Aufgaben wie Finanzanalysen. Dezentralisierte Architekturen erlauben direkte Peer-to-Peer-Kommunikation, besser für durchsatzkritische Aufgaben wie Web-Navigation. Die Google- und MIT-Studie zeigte, dass die optimale Topologie vollständig von der spezifischen Aufgabe abhängt, wobei das Vorhersagemodell die beste Architektur für 87% unbekannter Aufgaben korrekt identifizierte.