16 Claude-Instanzen. Zwei Wochen. Knapp 2.000 Sessions. Das Ergebnis: ein 100.000 Zeilen langer C-Compiler in Rust, der den Linux-Kernel auf x86, ARM und RISC-V kompiliert. Kosten: unter 20.000 Dollar. Dieses Projekt war kein Marketingvideo. Es war Anthropics Belastungstest für Agent Teams, das Multi-Agenten-Feature, das am 5. Februar 2026 zusammen mit Claude Opus 4.6 erschienen ist.
Agent Teams verwandeln Claude Code von einem Einzelsitzungs-Coding-Assistenten in eine Koordinationsschicht für parallele KI-Arbeit. Man beschreibt eine Aufgabe. Eine Lead-Session zerlegt sie, erzeugt Teammates und verteilt die Teilaufgaben. Jeder Teammate läuft in seinem eigenen Kontextfenster, bedient sich aus einer gemeinsamen Aufgabenliste und kommuniziert direkt mit anderen Teammates.
So funktionieren Agent Teams im Detail
Die Architektur besteht aus vier Komponenten: ein Lead, mehrere Teammates, eine gemeinsame Aufgabenliste und ein Mailbox-System für die Kommunikation zwischen den Agenten. Entscheidend ist, wie diese Teile zusammenspielen.
Das Lead-Teammate-Modell
Wenn man Claude Code anweist, ein Agent Team zu erstellen, wird die aktuelle Session zum Lead. Der Lead koordiniert: Er erzeugt Teammates, vergibt Aufgaben, fasst Ergebnisse zusammen und entscheidet, wann die Arbeit erledigt ist. Teammates sind eigenständige Claude-Code-Instanzen mit eigenem Kontextfenster, Werkzeugzugriff und Berechtigungen. Sie laden denselben Projektkontext (CLAUDE.md, MCP-Server, Skills), erben aber nicht die Gesprächshistorie des Leads.
Diese Trennung hat einen Grund. Ein Teammate, der das Authentifizierungsmodul analysiert, braucht nichts über die Datenbankmigration zu wissen, die der Lead drei Turns zuvor besprochen hat. Sauberer Kontext bedeutet besseren Fokus.
Der Lead kann Aufgaben direkt zuweisen (“gib das Login-Refactoring an Teammate-2”) oder Teammates aus der gemeinsamen Liste selbst wählen lassen. Das Claiming nutzt File-Locking, um Race Conditions zu verhindern. Aufgaben unterstützen auch Abhängigkeiten: Ein Teammate kann die API-Integration erst starten, wenn die Schema-Migration als erledigt markiert ist.
Kommunikation ohne Flaschenhals
Der entscheidende Unterschied zwischen Agent Teams und Subagents liegt in der Kommunikationstopologie. Subagents liefern Ergebnisse an den Hauptagenten zurück. Mehr nicht. Sie können sich weder untereinander austauschen noch Zwischenergebnisse teilen oder gegenseitig hinterfragen. Der Hauptagent ist der Flaschenhals.
Agent Teams beseitigen diese Einschränkung. Teammates senden sich gegenseitig Nachrichten, können Broadcasts an das gesamte Team schicken und lesen die gemeinsame Aufgabenliste, um zu wissen, woran die anderen arbeiten. Wenn ein Teammate fertig ist, benachrichtigt er automatisch den Lead. Wenn eine Aufgabe abgeschlossen wird, werden abhängige Aufgaben ohne manuelles Eingreifen freigegeben.
Das zeigt seinen Wert beim Debugging. Wenn Teammate-1 eine Race Condition in der Event-Loop findet und Teammate-2 Memory Leaks im selben Modul untersucht, können sie Erkenntnisse in Echtzeit austauschen, statt auf den Lead als Mittelsmann zu warten.
Anzeigemodi und direkte Interaktion
Agent Teams bieten zwei Anzeigemodi. Im In-Process-Modus laufen alle Teammates im Hauptterminal. Mit Shift+Hoch/Runter wählt man einen Teammate aus und tippt direkt eine Nachricht. Im Split-Pane-Modus bekommt jeder Teammate ein eigenes tmux- oder iTerm2-Fenster, sodass man die Ausgabe aller Teammates gleichzeitig sehen kann.
Man kann den Lead auch in den Delegate-Modus schalten (Shift+Tab). Dann beschränkt er sich auf Koordinationsaufgaben: Teammates erzeugen, Nachrichten senden, Teammates herunterfahren und Aufgaben verwalten. Das verhindert, dass der Lead selbst anfängt zu implementieren, statt die Arbeit zu verteilen.
Der C-Compiler: Was 16 Agenten tatsächlich geleistet haben
Anthropic-Forscher Nicholas Carlini hat Agent Teams nicht an Spielzeugproblemen getestet. Er ließ 16 parallele Claude-Instanzen zwei Wochen lang einen C-Compiler von Grund auf in Rust schreiben, ohne Internetzugang und ohne menschlich geschriebenen Code.
Die Zahlen
Das Projekt verbrauchte 2 Milliarden Input-Tokens und erzeugte 140 Millionen Output-Tokens in knapp 2.000 Claude-Code-Sessions. Der resultierende Compiler, claudes-c-compiler, ist Open Source auf GitHub und zielt auf x86 (64-Bit und 32-Bit), ARM und RISC-V. Er verwendet SSA-basierte Zwischendarstellung und hängt nur von der Rust-Standardbibliothek ab.
Was der Compiler kompiliert: Linux 6.9 (bootender Kernel), PostgreSQL (alle 237 Regressionstests bestanden), SQLite, Redis, QEMU, FFmpeg, GNU coreutils, CPython und über 150 weitere Projekte. Er erreicht eine Bestehensquote von 99% beim GCC-Torture-Test.
Erkenntnisse für die Multi-Agenten-Koordination
Die Agenten koordinierten sich über Git, nicht über das eingebaute Task-System der Agent Teams. Jeder Agent beanspruchte Aufgaben, indem er Dateien in ein current_tasks/-Verzeichnis schrieb. Git-Synchronisation verhinderte doppelte Arbeit. Merge-Konflikte wurden autonom gelöst.
Drei Erkenntnisse aus dem Experiment sind besonders relevant:
Testqualität übertrumpft alles. Carlini beobachtete: “Claude wird autonom jedes Problem lösen, das ich ihm stelle. Daher muss der Task-Verifizierer nahezu perfekt sein, sonst löst Claude das falsche Problem.” Die Agenten waren nur so gut wie die Tests, gegen die sie optimiert haben.
Kontextverschmutzung killt Produktivität. Agenten, die wortreiche Ausgaben in ihre Kontextfenster geschrieben haben, verschlechterten sich schneller. Knappe Protokollierung und aggregierte Statistiken statt roher Testausgaben hielten die Kontextfenster sauber.
Zeitblindheit ist real. Ohne einen --fast-Modus mit deterministischem Sampling pro Agent verbrachten einzelne Agenten Stunden mit Testläufen, die Minuten hätten dauern sollen. Die Lösung: explizite Zeitbudgets und Compiler-Orakel, um die Arbeit aufzuteilen.
Agent Teams vs. Subagents vs. GPT-5.3-Codex
Der Markt für Multi-Agenten-Coding-Tools ist innerhalb weniger Wochen enorm gewachsen. Wo Agent Teams hingehören, zeigt der Vergleich mit drei Alternativen.
Subagents: Gleiche Session, weniger Overhead
Subagents laufen innerhalb der aktuellen Claude-Code-Session. Sie bekommen ein eigenes Kontextfenster, erledigen eine fokussierte Aufgabe und liefern eine Zusammenfassung an den Hauptagenten. Sie können sich weder untereinander austauschen noch eigenständig koordinieren.
Subagents eignen sich, wenn man einen schnellen Rechercheur oder Validator braucht: “Prüf, ob diese API Paginierungs-Header zurückgibt” oder “Durchsuche die Codebase nach veralteten Funktionsaufrufen.” Der Token-Verbrauch ist geringer, weil nur die Zusammenfassung in den Hauptkontext zurückkehrt.
Agent Teams sind die bessere Wahl, wenn die Arbeit Koordination erfordert: paralleles Debugging mit konkurrierenden Hypothesen, schichtübergreifende Änderungen (Frontend, Backend, Tests) oder Aufgaben, bei denen Teammates die Ergebnisse der anderen hinterfragen müssen.
GPT-5.3-Codex: Interaktive Steuerung statt Autonomie
OpenAIs Ansatz mit GPT-5.3-Codex unterscheidet sich grundlegend. Statt mehrerer Agenten, die sich autonom koordinieren, bietet Codex einen einzelnen Agenten, den man interaktiv steuert. Man kann ihn während der Ausführung umlenken, ohne den Kontext zu verlieren. Die Codex-App verwaltet zwar mehrere Agenten über eine zentrale Oberfläche, aber diese Agenten kommunizieren nicht miteinander.
Agent Teams setzen auf autonome Koordination. Codex setzt auf Human-in-the-Loop-Steuerung. Die richtige Wahl hängt davon ab, ob man den Agenten zutraut, ohne ständige Aufsicht gute Entscheidungen zu treffen.
Drittanbieter-Orchestratoren: Claude Squad und Superset
Tools wie Claude Squad und Superset bauen eine Orchestrierungsschicht auf bestehende Coding-Agenten. Sie nutzen tmux und Git-Worktrees zur Isolation paralleler Sessions und funktionieren modelübergreifend (Claude, Codex, Aider, OpenCode). Aber ihnen fehlen native Inter-Agenten-Nachrichten und gemeinsame Aufgabenlisten. Agenten laufen parallel, ohne voneinander zu wissen.
Der Vorteil von Agent Teams liegt in der nativen Koordination. Der Nachteil: Sie funktionieren nur mit Claude, und sie sind noch experimentell.
Wann sich der Token-Mehrverbrauch lohnt
Agent Teams verbrauchen deutlich mehr Tokens als eine einzelne Session. Jeder Teammate ist eine eigene Claude-Instanz mit eigenem Kontextfenster. Bei einem Team von vier Teammates über eine Stunde kann man leicht das 10-fache einer Einzelsession ausgeben.
Der Mehraufwand lohnt sich in vier Szenarien:
Paralleles Code-Review mit getrennten Perspektiven. Drei Reviewer: einer für Sicherheit, einer für Performance, einer für Testabdeckung. Sie überschneiden sich nicht, weil jeder einen anderen Filter anwendet. Der Lead fasst die Ergebnisse zusammen.
Debugging mit konkurrierenden Hypothesen. Fünf Teammates, die fünf Theorien über einen Absturz untersuchen und aktiv versuchen, die Theorien der anderen zu widerlegen. Sequenzielle Untersuchung leidet unter Ankereffekten. Paralleles, adversariales Debugging findet die tatsächliche Ursache schneller.
Entwicklung neuer Module. Jeder Teammate verantwortet eine andere Datei oder Komponente. Keine Koordination nötig, weil die Teile unabhängig sind. Der Lead setzt das Endergebnis zusammen.
Schichtübergreifendes Refactoring. Frontend, Backend, Datenbankschema und Tests müssen gemeinsam geändert werden. Jeder Teammate besitzt eine Schicht. Die Kommunikation dreht sich um Interface-Verträge.
Für sequenzielle Aufgaben, Bearbeitungen in derselben Datei oder Szenarien, in denen Agenten sich ständig in die Quere kommen würden, ist der Overhead nicht gerechtfertigt. Für die Bearbeitung einer einzelnen Funktion ist eine Session mit Subagents schneller und günstiger.
Das erste Agent Team einrichten
Agent Teams aktiviert man, indem man dies zur settings.json oder Umgebung hinzufügt:
{
"env": {
"CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS": "1"
}
}
Danach beschreibt man die Aufgabe und Teamstruktur in natürlicher Sprache:
Erstelle ein Agent Team für das Refactoring des Authentifizierungsmoduls.
Erzeuge drei Teammates:
- Einen für den Token-Service (src/auth/tokens/)
- Einen für Session-Management (src/auth/sessions/)
- Einen für Integrationstests (tests/auth/)
Plan-Genehmigung vor Änderungen erforderlich.
Der Lead erstellt das Team, erzeugt Teammates und beginnt mit der Koordination. Jeder Teammate liest die CLAUDE.md des Projekts für Kontext. Die Anweisung “Plan-Genehmigung erforderlich” hält Teammates im Read-Only-Planmodus, bis der Lead ihren Ansatz genehmigt.
Zwei praktische Tipps aus der Community. Erstens: Genügend Kontext im Spawn-Prompt mitgeben. Teammates erben nicht die Gesprächshistorie des Leads, also Dateipfade, Einschränkungen und Ziele explizit angeben. Zweitens: Explizite Qualitätstore über Hooks setzen. Der TeammateIdle-Hook läuft, wenn ein Teammate fertig ist, und TaskCompleted läuft beim Abschluss einer Aufgabe. Beide können Arbeit ablehnen und Feedback senden.
Bekannte Einschränkungen
Agent Teams sind experimentell und haben handfeste Einschränkungen. /resume und /rewind stellen In-Process-Teammates nicht wieder her. Pro Session ist nur ein Team möglich. Teammates können keine eigenen Teams erzeugen (kein Nesting). Der Split-Pane-Modus braucht tmux oder iTerm2 und funktioniert nicht im integrierten Terminal von VS Code oder Windows Terminal.
Der Task-Status kann hinterherhinken: Teammates vergessen manchmal, Aufgaben als erledigt zu markieren, was abhängige Arbeit blockiert. Die Lösung: den Lead anweisen, stagnierende Teammates anzustoßen. Und das Aufräumen ist Sache des Leads. Teammates sollten kein Cleanup ausführen, weil ihr Team-Kontext möglicherweise nicht korrekt aufgelöst wird.
Das sind echte Einschränkungen, die vom ersten Tag an relevant sind. Sie erklären auch, warum Anthropic das Ganze als “Research Preview” und nicht als Produktionsfeature bezeichnet.
Häufig gestellte Fragen
Was sind Claude Opus 4.6 Agent Teams?
Agent Teams sind ein experimentelles Feature in Claude Code, mit dem mehrere Claude-Instanzen parallel an einer gemeinsamen Codebase arbeiten können. Eine Lead-Session erzeugt Teammates, verteilt Aufgaben und fasst Ergebnisse zusammen. Teammates arbeiten eigenständig mit eigenem Kontextfenster und kommunizieren direkt miteinander.
Was ist der Unterschied zwischen Agent Teams und Subagents?
Subagents laufen innerhalb einer einzigen Session und können nur Ergebnisse an den Hauptagenten zurückliefern. Agent Teams Teammates laufen als eigenständige Claude-Instanzen, die sich direkt untereinander Nachrichten senden, eine gemeinsame Aufgabenliste nutzen und sich selbst koordinieren. Agent Teams verbrauchen mehr Tokens, ermöglichen aber echte Multi-Agenten-Zusammenarbeit.
Wie viel kosten Agent Teams im Vergleich zu einer einzelnen Session?
Agent Teams verbrauchen deutlich mehr Tokens, da jeder Teammate eine eigene Claude-Instanz mit eigenem Kontextfenster ist. Beim C-Compiler-Stresstest von Anthropic verbrauchten 16 Agenten 2 Milliarden Input-Tokens und 140 Millionen Output-Tokens in zwei Wochen und kosteten unter 20.000 Dollar. Bei typischen Entwicklungsaufgaben mit 3-4 Teammates sollte man mit dem 5- bis 10-fachen einer einzelnen Session rechnen.
Wann sollte man Agent Teams einsetzen?
Agent Teams eignen sich am besten für paralleles Code-Review mit verschiedenen Kriterien (Sicherheit, Performance, Tests), Debugging mit konkurrierenden Hypothesen, gleichzeitige Entwicklung unabhängiger Module und schichtübergreifendes Refactoring. Für sequenzielle Aufgaben, Bearbeitungen in derselben Datei oder einfache Operationen sind sie nicht kosteneffizient.
Wie aktiviert man Claude Code Agent Teams?
Die Umgebungsvariable CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS auf 1 setzen, entweder in der Shell oder in der Claude Code settings.json. Dann die Aufgabe und Teamstruktur in natürlicher Sprache beschreiben. Agent Teams sind derzeit eine Research Preview und standardmäßig deaktiviert.
