GPT-5.3-Codex vs. Claude Opus 4.6: Der Kampf der Coding-Agenten

Foto von Ilya Pavlov auf Unsplash Source

Am 5. Februar 2026 veröffentlichten OpenAI und Anthropic ihre Flaggschiff-Coding-Modelle im Abstand von 20 Minuten. GPT-5.3-Codex erreicht 77,3% auf Terminal-Bench 2.0 und läuft 25% schneller als sein Vorgänger. Claude Opus 4.6 kommt auf 79,4% bei SWE-bench Verified und bringt ein 1M-Token-Kontextfenster mit. Keines der Modelle ist durchgehend besser. Sie basieren auf grundlegend verschiedenen Vorstellungen davon, wie Entwickler und KI zusammenarbeiten sollten. Diesen Unterschied zu verstehen ist wichtiger als jeder einzelne Benchmark-Score.

GPT-5.3-Codex behandelt KI-Coding als interaktive Zusammenarbeit: Du steuerst das Modell während der Ausführung, beobachtest seine Arbeit und korrigierst in Echtzeit. Claude Opus 4.6 versteht es als autonome Delegation: Du beschreibst das Problem, die “Agent Teams” verteilen die Arbeit auf parallele Sessions, und du prüfst die Ergebnisse. Gleiches Problem, zwei Architekturen, zwei Wetten darauf, was professionelle Entwickler tatsächlich wollen.

Architektur: Interaktive Steuerung vs. autonome Teams

Der tiefgreifendste Unterschied zwischen diesen Modellen ist nicht die Leistung. Es ist die Philosophie.

Der Codex-Ansatz: Im Loop bleiben

OpenAI baute GPT-5.3-Codex um eine Desktop-Anwendung herum, die drei Tage vor dem Modell selbst erschien. Die Codex-App funktioniert als “Kommandozentrale für Agenten”: Entwickler verwalten mehrere Coding-Agenten über eine einzige Oberfläche. Jeder Agent läuft in einer eigenen Cloud-Sandbox, vorgeladen mit dem Repository, und kann bis zu 30 Minuten autonom arbeiten, bevor er Ergebnisse liefert.

Die zentrale Designentscheidung: Du kannst mit GPT-5.3-Codex mitten in der Ausführung interagieren, ohne den Kontext zu verlieren. Richtung ändern, eine Einschränkung hinzufügen oder eine Entscheidung hinterfragen, während das Modell arbeitet. OpenAI nennt das “Interactive Collaboration” und setzt darauf, dass Profis aktiv am Prozess beteiligt bleiben wollen, statt komplette Aufgaben abzugeben.

Die App führt außerdem “Skills” ein: Bündel aus Anweisungen, Ressourcen und Skripten, die teamspezifische Muster kodieren. Euer Authentifizierungsflow, eure Testing-Konventionen, eure Deployment-Pipeline. Skills bleiben über Sessions hinweg erhalten, sodass der Agent auf Unternehmenswissen aufbaut, statt jedes Mal bei null anzufangen. Automations erweitern das Konzept: Agenten laufen nach Zeitplan für Routineaufgaben wie Issue-Triage und CI-Monitoring.

Über 1 Million Entwickler nutzten Codex im Monat vor dem GPT-5.3-Launch, und die Nutzung ist seit August 2025 um das 20-Fache gewachsen.

Der Opus-Ansatz: Delegieren und prüfen

Anthropic ging mit den Agent Teams von Opus 4.6 (derzeit Research Preview) einen anderen Weg. Statt eines Agenten, den du steuerst, bekommst du mehrere Agenten, die sich untereinander koordinieren. Eine Lead-Session teilt die Arbeit auf, weist Sub-Agenten Aufgaben zu, jeder mit eigenem Kontextfenster, und setzt die Ergebnisse zusammen.

Diese Architektur ist für eine andere Problemklasse gebaut: große Codebasen, in denen Änderungen über mehrere Dateien, Test-Suites und Dokumentation gleichzeitig nötig sind. Jeder Sub-Agent arbeitet unabhängig. Das bedeutet: Wenn ein Agent scheitert, kaskadiert das nicht in die anderen, und jede Stufe kann eigene Guardrails haben.

Das 1M-Token-Kontextfenster (Beta, 200K Standard) unterstützt diesen Ansatz. Wenn ein Agent eine ganze Codebasis im Kontext halten kann, kann er über Dateien hinweg argumentieren, die ein Modell mit kleinerem Kontext über Tool Calls neu entdecken müsste. Der maximale Output verdoppelte sich auf 128K Tokens, genug für komplette Modul-Rewrites in einer einzigen Antwort.

Opus 4.6 bringt “Adaptive Thinking” mit: Das Modell entscheidet dynamisch, wie tief es bei einer Aufgabe nachdenkt. Ein einfaches Rename bekommt leichtes Reasoning. Ein Security-Audit bekommt maximale Tiefe. Das ist nicht benutzerkonfigurierbar, sondern eine Modellentscheidung, die Kosten bei einfachen Tasks optimiert und Gründlichkeit bei schweren Tasks bewahrt.

Benchmarks: Was die Zahlen wirklich zeigen

Das Benchmark-Bild ist wirklich kompliziert, weil OpenAI und Anthropic unterschiedliche Evaluationssuiten gewählt haben.

Benchmark	GPT-5.3-Codex	Claude Opus 4.6	Was wird gemessen
SWE-bench Pro	56,8%	N/A	Echte GitHub-Issue-Resolution (schwieriger)
SWE-bench Verified	N/A	79,4%	Echte GitHub-Issue-Resolution (kuratiert)
Terminal-Bench 2.0	77,3%	65,4%	89 reale Workflow-Tasks in Terminal-Umgebungen
OSWorld-Verified	64,7%	Nicht berichtet	Produktivitätsaufgaben in Desktop-Umgebungen
GDPval	70,9% Siege/Unentschieden	Nicht berichtet	Wissensarbeit in 44 Berufsfeldern

Der SWE-bench-Vergleich verdient besondere Aufmerksamkeit. Anthropic berichtet über SWE-bench Verified; OpenAI über SWE-bench Pro. Das sind verschiedene Problemsets mit unterschiedlichen Schwierigkeitsgraden. 79,4% Verified mit 56,8% Pro zu vergleichen ist wie Marathonzeiten auf einer Flachstrecke mit einer Bergstrecke zu vergleichen. Beide Werte sind stark, aber ein direkter Vergleich braucht die gleiche Benchmark-Variante.

Wo GPT-5.3-Codex klar führt, ist Terminal-Bench 2.0: 89 Tasks, die von echten Entwickler-Workflows in Kommandozeilen-Umgebungen inspiriert sind. Produktionslogs debuggen, Server konfigurieren, Shell-Befehle verketten. Der 77,3%-Score schlägt Claude Opus 4.6s 65,4%, ein Abstand, der Codex’ Stärke bei interaktiver, terminalintensiver Arbeit widerspiegelt.

Wo Opus 4.6 klar führt, sind reasoning-intensive Benchmarks wie GPQA Diamond und MMLU Pro, plus die verifizierten Bug-Fixing-Tasks in SWE-bench. Wenn ein Problem erfordert, eine ganze Codebasis zu verstehen und einen präzisen Fix zu produzieren, zahlt sich das längere Kontextfenster und das tiefere Reasoning aus.

Was Entwickler in der Praxis berichten

Benchmark-Scores erzählen eine Geschichte. Der Produktionseinsatz erzählt eine andere.

Der Konsens unter Early Adopters: GPT-5.3-Codex ist schneller und macht weniger “dumme Fehler” bei einfachen Aufgaben. Opus 4.6 ist gründlicher bei komplexen Projekten, besser im Code Review und stärker, wenn die Aufgabe das Verständnis großer Codebasen erfordert. Ein Entwickler fasste es so zusammen: “Codex für Geschwindigkeit, Opus für Präzision.”

Ein interessanter Datenpunkt von Constellation Research: 75% der Anthropic-Kunden nutzen ihr leistungsstärkstes Modell in Produktion, bei OpenAI sind es 46%. Das deutet darauf hin, dass Opus-Nutzer aggressiver auf Frontier-Fähigkeiten setzen, während viele OpenAI-Kunden bei leichteren Modellen bleiben, um Kosten zu sparen.

GitHub Agent HQ: Das neutrale Schlachtfeld

Zum ersten Mal können Entwickler beide Modelle nebeneinander am gleichen Problem laufen lassen über GitHubs Agent HQ. Copilot Pro+- und Enterprise-Kunden können Aufgaben an Copilot, Claude und Codex vergeben und dann vergleichen, wie jeder Agent durch das Problem navigiert.

Die Claude Opus 4.6-Integration ist verfügbar in VS Code, Visual Studio, GitHub.com, GitHub Mobile und GitHub CLI. Agent-Sessions lassen sich direkt aus einem Issue, einem Pull Request oder dem Agents-Tab starten.

Die Codex IDE-Erweiterung funktioniert in VS Code, Cursor, Windsurf und kompatiblen Editoren und teilt die Konfiguration mit Desktop-App und CLI. Voraussetzung ist ein ChatGPT-Abo (Plus, Pro, Team oder Enterprise) oder ein OpenAI-API-Key.

Das ist relevant, weil es die Modellwahl von einer einmaligen Entscheidung in eine Entscheidung pro Aufgabe verwandelt. Du könntest Codex für ein schnelles Refactoring nehmen, bei dem Tempo zählt, und dann zu Opus für ein tiefgreifendes Security-Audit wechseln, bei dem Gründlichkeit entscheidet. GitHubs neutrale Plattform macht diesen Workflow praktikabel.

Preise: Was du tatsächlich zahlst

Die Kostenstrukturen unterscheiden sich genug, dass das richtige Modell von deinem Nutzungsmuster abhängt.

	GPT-5.3-Codex	Claude Opus 4.6
Verbraucher-Zugang	ChatGPT Plus (20$/Monat)	claude.ai Pro (20$/Monat)
API-Input-Tokens	~1,25$/M (geschätzt, noch nicht veröffentlicht)	5$/M (Standard), 10$/M (>200K Kontext)
API-Output-Tokens	~10$/M (geschätzt)	25$/M (Standard), 37,50$/M (>200K)
Batch API	Nicht angekündigt	50% Rabatt
Prompt Caching	Nicht angekündigt	Bis zu 90% Reduktion der Input-Kosten

Auf API-Ebene ist Codex deutlich günstiger pro Token, grob 4x weniger für Input-Tokens. Aber der Token-Preis allein erzählt nicht die ganze Geschichte. Opus 4.6s Prompt Caching kann wiederkehrende Input-Kosten um bis zu 90% senken, was die Wirtschaftlichkeit dramatisch verändert, wenn du ähnliche Tasks gegen dieselbe Codebasis laufen lässt. Der Batch-API-Rabatt (50%) hilft zusätzlich bei nicht latenz-kritischen Workloads.

Für die Nutzung über Abos starten beide bei 20$/Monat. Der echte Kostenunterschied zeigt sich auf API-Ebene: Codex’ niedrigere Token-Preise begünstigen Hoch-Durchsatz-Anwendungen, Opus’ Caching und Batch-Features begünstigen wiederholte, codebase-intensive Arbeit.

Die Cybersecurity-Fußnote

GPT-5.3-Codex ist das erste OpenAI-Modell, das als “High Capability” für Cybersecurity eingestuft wurde im Rahmen ihres Preparedness Framework. OpenAI setzt es mit strengeren Kontrollen als jedes vorherige Modell ein und hat den vollen API-Zugang verzögert. Zusätzlich wurden $10 Millionen an API-Credits für Cyber-Defense-Initiativen zugesagt. Für Unternehmen im DACH-Raum, die sensiblen Code verarbeiten, sollte diese Einstufung in die Risikobewertung einfließen, besonders vor dem Hintergrund des EU AI Act und der hohen DSGVO-Anforderungen an die Verarbeitung von Quellcode.

Die Entscheidung: Wann welches Modell

Die Frage “Welches ist besser?” greift zu kurz. Die Antwort hängt von der Aufgabe ab.

GPT-5.3-Codex, wenn:

Geschwindigkeit wichtiger ist als Tiefe (Prototyping, Refactoring, Routine-Bugfixes)
Du das Modell interaktiv steuern willst, während es arbeitet
Terminal- und Shell-intensive Workflows dominieren
Du parallele Agenten über mehrere Projekte brauchst (Codex-App)
Budgetbeschränkungen zu niedrigeren Token-Kosten drängen

Claude Opus 4.6, wenn:

Die Aufgabe eine große Codebasis erfordert (Security-Audits, komplexes Debugging)
Du ganze Teilaufgaben an autonome Agent Teams delegieren willst
Long-Context-Reasoning zählt (Code Review über hunderte Dateien)
Du wiederholte Analysen auf derselben Codebasis laufen lässt (Prompt Caching senkt Kosten)
EU-AI-Act-Compliance nachvollziehbare Reasoning-Ketten für eure KI-Tools verlangt

Beide zusammen, wenn:

GitHub Agent HQ den Vergleich beider Lösungen für dasselbe Issue ermöglicht
Verschiedene Teammitglieder unterschiedliche Interaktionsstile bevorzugen
Euer Workflow sowohl Quick Fixes (Codex) als auch tiefe Analysen (Opus) umfasst

Die eigentliche Geschichte des 5. Februar ist nicht, dass ein Modell gewonnen hat. Es ist, dass Coding-Agenten sich in zwei Paradigmen aufgespalten haben: interaktive Steuerung und autonome Delegation. Und die Werkzeuge existieren jetzt, um beides zu nutzen. Die Entwickler, die am meisten profitieren, sind diejenigen, die aufhören, nach einem Gewinner zu suchen, und stattdessen jedes Modell zur Arbeit einsetzen, die es am besten kann.

Häufig gestellte Fragen

Ist GPT-5.3-Codex besser als Claude Opus 4.6 fürs Programmieren?

Keines ist durchgehend besser. GPT-5.3-Codex erreicht höhere Werte bei Terminal-Bench 2.0 (77,3% vs. 65,4%) und arbeitet schneller bei interaktivem Coding. Claude Opus 4.6 führt bei SWE-bench Verified (79,4%) und bewältigt komplexe Multi-File-Aufgaben besser mit seinem 1M-Token-Kontextfenster und der Agent-Teams-Funktion.

Was kostet GPT-5.3-Codex im Vergleich zu Claude Opus 4.6?

Beide bieten Verbraucher-Zugang ab 20$/Monat. Auf API-Ebene kostet GPT-5.3-Codex geschätzt rund 1,25$ pro Million Input-Tokens und 10$ pro Million Output-Tokens. Claude Opus 4.6 kostet 5$ pro Million Input-Tokens und 25$ pro Million Output-Tokens, bietet aber Prompt Caching (bis 90% Ersparnis) und Batch-API-Rabatte (50%).

Kann ich GPT-5.3-Codex und Claude Opus 4.6 zusammen auf GitHub nutzen?

Ja. GitHub Agent HQ ermöglicht es Copilot Pro+- und Enterprise-Kunden, dieselbe Aufgabe beiden Agenten zuzuweisen, ihre Ansätze zu vergleichen und die beste Lösung auszuwählen. Beide Modelle sind in VS Code, GitHub.com und GitHub CLI integriert.

Was ist die Codex Desktop-App und wie unterscheidet sie sich von Claudes Agent Teams?

Die Codex Desktop-App ist eine macOS-Anwendung, die mehrere KI-Coding-Agenten verwaltet, die am selben Projekt arbeiten, jeder in einer isolierten Cloud-Sandbox. Du steuerst Agenten interaktiv während der Ausführung. Claudes Agent Teams verfolgen einen anderen Ansatz: Eine Lead-Session teilt Aufgaben auf autonome Sub-Agenten auf, die sich unabhängig koordinieren und weniger menschliche Intervention benötigen.

Warum hat OpenAI GPT-5.3-Codex als hochriskant für Cybersecurity eingestuft?

GPT-5.3-Codex ist das erste OpenAI-Modell, das im Rahmen des Preparedness Framework als “High Capability” für Cybersecurity eingestuft wurde. Seine fortgeschrittenen Code-Generierungsfähigkeiten könnten missbraucht werden. OpenAI hat es mit strengeren Kontrollen eingesetzt, den vollen API-Zugang verzögert und 10 Millionen Dollar an API-Credits für Cyber-Defense-Forschung zugesagt.

Architektur: Interaktive Steuerung vs. autonome Teams#

Der Codex-Ansatz: Im Loop bleiben#

Der Opus-Ansatz: Delegieren und prüfen#

Benchmarks: Was die Zahlen wirklich zeigen#

Was Entwickler in der Praxis berichten#

GitHub Agent HQ: Das neutrale Schlachtfeld#

Preise: Was du tatsächlich zahlst#

Die Cybersecurity-Fußnote#

Die Entscheidung: Wann welches Modell#

Häufig gestellte Fragen#

Ist GPT-5.3-Codex besser als Claude Opus 4.6 fürs Programmieren?#

Was kostet GPT-5.3-Codex im Vergleich zu Claude Opus 4.6?#

Kann ich GPT-5.3-Codex und Claude Opus 4.6 zusammen auf GitHub nutzen?#

Was ist die Codex Desktop-App und wie unterscheidet sie sich von Claudes Agent Teams?#

Warum hat OpenAI GPT-5.3-Codex als hochriskant für Cybersecurity eingestuft?#