GPT-5.3-Codex-Spark: OpenAIs erstes Modell auf Cerebras liefert 1.000 Token/Sek

Photo by Taylor Vick on Unsplash Source

OpenAIs GPT-5.3-Codex-Spark generiert Code mit über 1.000 Token pro Sekunde. Das ist rund 15-mal schneller als das übergeordnete GPT-5.3-Codex-Modell, schnell genug, dass die Ausgabe des Modells so schnell auf dem Bildschirm erscheint, wie man lesen kann. Die Geschwindigkeit stammt von einer neuen Hardware-Partnerschaft: Codex-Spark ist OpenAIs erstes Modell auf Cerebras-Silizium statt auf Nvidia-GPUs. Untermauert durch einen 10-Milliarden-Dollar-Vertrag zwischen den beiden Unternehmen handelt es sich nicht um ein Laborexperiment, sondern um einen Produktions-Einsatz, der zeigt, wohin die KI-Hardware-Entwicklung geht.

Das Modell wurde am 12. Februar 2026 als Research Preview für ChatGPT-Pro-Nutzer veröffentlicht. Es läuft auf Cerebras’ Wafer Scale Engine 3 (WSE-3), einem einzelnen wafergroßen Chip mit 4 Billionen Transistoren und 900.000 KI-optimierten Kernen. Für Entwickler bedeutet das konkret: Echtzeit-Coding-Feedback mit einem 128K-Kontextfenster, genug Platz für große Codebasen im Speicher, bei einer Geschwindigkeit, die mit interaktivem Editieren Schritt hält.

Warum Cerebras, und warum jetzt?

Jedes große KI-Labor arbeitet auf Nvidia-Hardware. OpenAIs eigene Infrastruktur basiert auf Hunderttausenden Nvidia-GPUs. Warum also eine Partnerschaft mit einem Startup eingehen, das tellergroße Chips herstellt, in einem Markt, den Nvidia mit über 80 % Anteil dominiert?

Die kurze Antwort: Latenz. Nvidia-GPUs verwenden High Bandwidth Memory (HBM), der außerhalb des Chips sitzt und über externe Verbindungen kommuniziert. Für das Training massiver Modelle funktioniert diese Architektur. Für Inferenz, wo es darum geht, einzelne Anfragen so schnell wie möglich zu bedienen, wird der Speicherengpass zum Problem.

SRAM vs. HBM: Der technische Unterschied

Cerebras’ WSE-3 verfolgt einen grundlegend anderen Ansatz. Statt Tausende einzelner GPUs über ein Netzwerk zu verbinden, wird alles auf einen einzigen Wafer gebaut. Der entscheidende Unterschied liegt im Speichertyp: Der WSE-3 nutzt SRAM (Static Random-Access Memory), der direkt auf dem Chip sitzt und etwa 1.000-mal schneller ist als der HBM4 in Nvidias kommenden Rubin-GPUs. Keine Off-Chip-Speicherzugriffe, kein Interconnect-Overhead.

Die Zahlen verdeutlichen den Unterschied:

Spezifikation	Cerebras WSE-3	Nvidia B200
Transistoren	4 Billionen	~208 Milliarden
KI-Rechenleistung	125 PFLOPS	~4,5 PFLOPS
Speichertyp	On-Chip SRAM	Off-Chip HBM3e
Speicherbandbreite	7.000x H100	8 TB/s
Kerne	900.000	18.432 CUDA

Diese Architektur ist speziell für Inferenz konzipiert. OpenAI bezeichnete die Cerebras-Integration als eine „Low-Latency Serving Tier", die dem Produktions-Stack hinzugefügt wurde. GPUs übernehmen weiterhin groß angelegte, kosteneffiziente Training-Workloads. Cerebras übernimmt die Anwendungsfälle, bei denen Geschwindigkeit pro Anfrage wichtiger ist als Durchsatz pro Euro.

Die 10-Milliarden-Dollar-Wette

Im Januar 2026 unterzeichneten OpenAI und Cerebras einen Vertrag, um 750 Megawatt Cerebras-gestützte Rechenleistung in Phasen bis 2028 online zu bringen. Zur Einordnung: Das ist mehr Strom, als viele mittelgroße Städte verbrauchen. Damit entsteht die größte Hochgeschwindigkeits-KI-Inferenz-Installation der Welt.

OpenAI verabschiedet sich damit nicht von Nvidia. Es ist eine Absicherung. Der WSE-3 übernimmt interaktive Inferenz-Workloads, bei denen Latenz zählt. Nvidia-GPUs übernehmen Training und Batch-Inferenz, wo Kosteneffizienz zählt. Verschiedene Chips für verschiedene Aufgaben, genauso wie Rechenzentren SSDs und Festplatten parallel einsetzen.

Cerebras strebt außerdem einen Börsengang 2026 an, der das Unternehmen mit über 15 Milliarden Dollar bewerten könnte. Die OpenAI-Partnerschaft ist sowohl eine technische Zusammenarbeit als auch ein Ankerkunde, der diesen Börsengang erst möglich macht. Für DACH-Investoren und Technologie-Unternehmen ist diese Entwicklung besonders relevant: Der europäische KI-Chip-Markt könnte von einer diversifizierteren Lieferkette profitieren.

Was Codex-Spark konkret leistet

Codex-Spark ist eine kleinere, schnellere Variante von GPT-5.3-Codex, speziell optimiert für interaktives Coding. Der Unterschied lässt sich so beschreiben: GPT-5.3-Codex ist ein Containerschiff, Codex-Spark ein Schnellboot. Beide bewegen Daten, aber eines ist für Durchsatz gebaut, das andere für Reaktionsgeschwindigkeit.

Leistungsdaten im Detail

Die Geschwindigkeitsverbesserungen sind erheblich:

Token-Generierung: 1.000+ Token pro Sekunde (vs. ~65 Token/s beim übergeordneten Modell auf Nvidia)
Time-to-First-Token: 50 % Reduktion gegenüber GPT-5.3-Codex
Client-Server-Roundtrip-Overhead: 80 % Reduktion
Pro-Token-Verarbeitungs-Overhead: 30 % Reduktion
Kontextfenster: 128K Token (nur Text bei Launch)

Auf agentischen Software-Engineering-Benchmarks wie SWE-Bench Pro und Terminal-Bench 2.0 liefert Codex-Spark fähigere Ergebnisse als GPT-5.1-Codex-mini, bei einem Bruchteil der Zeit. Bei den schwierigsten Aufgaben erreicht es nicht ganz die Genauigkeit des vollen GPT-5.3-Codex, aber für die 80 % der Coding-Aufgaben, die Routine sind (Refactoring, Bug-Fixes, Test-Generierung, Boilerplate), ist Geschwindigkeit wichtiger als marginale Genauigkeitsgewinne.

Einordnung in die Codex-Familie

OpenAI bietet jetzt ein dreistufiges Coding-Modell-Stack:

GPT-5.3-Codex: Das Vollleistungsmodell. Am stärksten bei komplexen, mehrstufigen Aufgaben. Läuft auf Nvidia-GPUs. 256K Kontext. 77,3 % auf Terminal-Bench 2.0.
GPT-5.3-Codex-Spark: Die Speed-Variante. Echtzeit-interaktives Coding. Läuft auf Cerebras WSE-3. 128K Kontext. ~15x schnellere Inferenz.
GPT-5.1-Codex-mini: Die Leichtgewicht-Stufe. Schnell und günstig, niedrigere Leistungsobergrenze.

Der vorgesehene Workflow: Spark für Echtzeit-Editing-Sessions nutzen, wo sofortiges Feedback gebraucht wird, und komplexe Architekturprobleme an das volle Codex-Modell übergeben. Die Codex-App, CLI und VS-Code-Extension unterstützen bereits beide Modelle, der Wechsel ist eine Modellauswahl, kein Workflow-Umbau.

Die WebSocket-basierte Verbindung, die Spark standardmäßig verwendet, ist für die Entwicklererfahrung ebenfalls wichtig. Traditionelle HTTP-Request-Response-Zyklen fügen bei jedem Turn Latenz hinzu. Persistente WebSocket-Verbindungen halten die Leitung offen, und so erreicht OpenAI die 80 % Reduktion beim Roundtrip-Overhead. Bei interaktivem Coding, wo man Dutzende kleiner Prompts pro Minute sendet, summiert sich das schnell.

Was das für den KI-Chip-Markt bedeutet

Die Nvidia-Monokultur in der KI ist ein offenes Geheimnis, das alle kennen und niemand ändern konnte. Nvidia hält über 80 % des KI-Beschleuniger-Marktes. Jeder Hyperscaler, jedes KI-Labor, jedes Startup baut auf CUDA. Die Netzwerkeffekte sind enorm: CUDA ist ein 20 Jahre altes Ökosystem aus Bibliotheken, Tools und institutionellem Wissen.

Dass OpenAI Cerebras für einen Produktions-Einsatz wählt, bricht dieses Monopol nicht. Aber es beweist, dass es Risse hat.

Die Inferenz-Divergenz

Training und Inferenz spalten sich in getrennte Hardware-Märkte auf. Training erfordert massive Parallelisierung über Tausende von GPUs, lang laufende Jobs, bei denen Kosten pro FLOP am wichtigsten sind. Inferenz erfordert niedrige Latenz bei einzelnen Anfragen, kurze Bursts, bei denen die Antwortzeit entscheidet.

Nvidia hat für Training optimiert und diese GPUs dann für Inferenz adaptiert. Cerebras hat von Grund auf für Inferenz designed. Der On-Chip-SRAM des WSE-3 eliminiert die Memory Wall, an die GPU-basierte Inferenz stößt. Darum kann er Token mit 1.000/Sekunde liefern, wo ein GPU-Cluster bei etwa 65 endet.

Diese Aufspaltung hat Auswirkungen über OpenAI hinaus. Wenn sich die Branche in Richtung spezialisierter Inferenz-Hardware bewegt, wird der Markt größer und wettbewerbsfähiger. Amazon baut Trainium-Chips, Google hat TPUs, Microsoft entwickelt Maia. Jeder ist für unterschiedliche Punkte im Training-Inferenz-Spektrum optimiert. Cerebras besetzt das extreme Low-Latency-Ende.

Für europäische Unternehmen und besonders den DACH-Raum hat diese Entwicklung strategische Bedeutung. Die Abhängigkeit von einem einzigen Chip-Hersteller ist ein Risikofaktor für die digitale Souveränität. Eine diversifizierte KI-Chip-Landschaft könnte langfristig auch europäischen Anbietern wie Infineon oder NXP Möglichkeiten eröffnen, in den Inferenz-Markt vorzustoßen.

Auswirkungen auf Entwickler

Für Entwickler, die OpenAIs Modelle über die API oder ChatGPT nutzen, ist die Hardware hinter dem Vorhang unsichtbar. Man ruft einen Endpoint auf und bekommt Token schneller zurück. Die Relevanz liegt darin, was es ermöglicht: Coding-Workflows, die vorher zu langsam waren, werden praktikabel.

Echtzeit-Pair-Programming mit KI war bisher durch Latenz limitiert. Wenn ein Modell 3-5 Sekunden braucht, um eine Antwort zu starten, bricht der Flow-Zustand zusammen. Bei 1.000 Token pro Sekunde mit 50 % schnellerer First-Token-Lieferung hält die KI mit der Lesegeschwindigkeit eines schnellen Tippers mit. Das verändert das Interaktionsmuster von „prompten, warten, prüfen" zu etwas, das eher kollaborativem Tippen ähnelt.

Zugang zu Codex-Spark

Codex-Spark ist derzeit eine Research Preview mit eingeschränktem Zugang:

Wer kann es nutzen: ChatGPT-Pro-Abonnenten (200 $/Monat)
Wo: Codex-App (macOS), CLI, VS-Code-Extension
Rate Limits: Getrennt von Standard-ChatGPT-Limits (Nutzung zählt nicht gegen das reguläre Kontingent)
API-Zugang: Auf Design-Partner beschränkt; gestaffelter Rollout geplant
Eingabe: Nur Text bei Launch (noch keine multimodale Unterstützung)

OpenAI hat keine Preise für den API-Zugang angekündigt. Angesichts der vermutlich höheren Kosten pro Chip bei Cerebras-Hardware ist ein Premium-Tier zu erwarten, möglicherweise als latenzoptimierte Option neben den Standard-GPU-bedienten Modellen.

Während der Research Preview kann es bei hoher Nachfrage zu Warteschlangen kommen. OpenAI und Cerebras fahren die Rechenzentrums-Kapazität als Teil ihres phasenweisen 750-Megawatt-Deployments noch hoch.

Sicherheitshinweise

OpenAI gibt an, dass Codex-Spark das gleiche Sicherheitstraining wie die Hauptmodelle enthält, einschließlich Cyber-bezogener Schutzmaßnahmen. Bemerkenswert: Es erreicht nicht die Schwellenwerte für Hochrisikofähigkeiten in Cybersicherheit oder Biologie, anders als das übergeordnete GPT-5.3-Codex-Modell, das als „High Capability" für Cybersicherheit eingestuft wurde. Die kleinere Modellgröße erklärt diesen Unterschied wahrscheinlich. Für Unternehmen, die unter den Vorgaben des EU AI Act arbeiten, ist dieser niedrigere Risiko-Level ein relevanter Faktor bei der Tool-Auswahl.

Häufig gestellte Fragen

Was ist GPT-5.3-Codex-Spark?

GPT-5.3-Codex-Spark ist eine kleinere, schnellere Variante von OpenAIs GPT-5.3-Codex-Coding-Modell, optimiert für interaktives Echtzeit-Coding. Es läuft auf Cerebras’ Wafer Scale Engine 3 statt auf Nvidia-GPUs und generiert über 1.000 Token pro Sekunde, rund 15-mal schneller als das übergeordnete Modell.

Wie schnell ist GPT-5.3-Codex-Spark im Vergleich zum regulären Codex?

Codex-Spark generiert über 1.000 Token pro Sekunde im Vergleich zu etwa 65 Token pro Sekunde bei GPT-5.3-Codex auf Nvidia-GPUs. Außerdem reduziert es die Time-to-First-Token um 50 % und den Client-Server-Roundtrip-Overhead um 80 %.

Warum nutzt OpenAI Cerebras-Chips statt Nvidia für Codex-Spark?

Der WSE-3 von Cerebras nutzt On-Chip-SRAM-Speicher, der etwa 1.000-mal schneller ist als der in Nvidia-GPUs verwendete HBM. Das eliminiert den Speicherengpass, der die Inferenzgeschwindigkeit auf GPUs begrenzt. Für Echtzeit-Coding, wo Latenz wichtiger ist als Durchsatz, ist die Cerebras-Architektur besser geeignet.

Wer kann GPT-5.3-Codex-Spark nutzen?

Codex-Spark ist derzeit eine Research Preview, die ChatGPT-Pro-Abonnenten (200 $/Monat) zur Verfügung steht. Der Zugang erfolgt über die Codex-App auf macOS, die CLI und die VS-Code-Extension. API-Zugang ist auf Design-Partner beschränkt, ein gestaffelter Rollout ist geplant.

Was ist die Cerebras Wafer Scale Engine 3?

Die WSE-3 ist Cerebras’ dritte Generation von KI-Chips, gebaut auf einem einzelnen Wafer mit 4 Billionen Transistoren und 900.000 KI-optimierten Kernen. Sie liefert 125 Petaflops Rechenleistung und nutzt On-Chip-SRAM statt Off-Chip-HBM, was deutlich schnellere Inferenz als GPU-basierte Systeme ermöglicht.

Warum Cerebras, und warum jetzt?#

SRAM vs. HBM: Der technische Unterschied#

Die 10-Milliarden-Dollar-Wette#

Was Codex-Spark konkret leistet#

Leistungsdaten im Detail#

Einordnung in die Codex-Familie#

Was das für den KI-Chip-Markt bedeutet#

Die Inferenz-Divergenz#

Auswirkungen auf Entwickler#

Zugang zu Codex-Spark#

Sicherheitshinweise#

Häufig gestellte Fragen#

Was ist GPT-5.3-Codex-Spark?#

Wie schnell ist GPT-5.3-Codex-Spark im Vergleich zum regulären Codex?#

Warum nutzt OpenAI Cerebras-Chips statt Nvidia für Codex-Spark?#

Wer kann GPT-5.3-Codex-Spark nutzen?#

Was ist die Cerebras Wafer Scale Engine 3?#