OpenAI Codex Security: Der KI-Agent, der 10.561 Schwachstellen in 30 Tagen fand

Foto von Sora Shimazaki auf Pexels (freie Lizenz) Source

OpenAIs Codex Security Agent hat in 30 Tagen 1,2 Millionen Commits in Projekten wie OpenSSH, GnuTLS, Chromium und PHP durchsucht und dabei 10.561 schwerwiegende Schwachstellen identifiziert. Vierzehn davon führten zu offiziellen CVE-Zuweisungen. Das Tool wurde am 6. März 2026 als Research Preview gestartet und ist der Nachfolger von Aardvark, dem privaten Beta-Security-Agenten vom Oktober 2025. Es erstellt Bedrohungsmodelle, analysiert Schwachstellen, validiert Funde in Sandbox-Umgebungen und schlägt minimale Patches vor. Verfügbar für ChatGPT Pro-, Enterprise-, Business- und Edu-Kunden.

Die Zahlen klingen beeindruckend. Aber bevor IT-Sicherheitsteams ihre bestehenden Tools abschalten: Codex Security hat keine CI/CD-Integration, kein IDE-Plugin, keine veröffentlichte Sprachabdeckung und kein unabhängiges Audit der Erkennungsraten. Hier ist, was das Tool wirklich kann, wo es stark ist und wo es noch Lücken hat.

So funktioniert Codex Security: Bedrohungsmodelle statt Mustererkennung

Klassische SAST-Tools (Static Application Security Testing) wie SonarQube, Checkmarx und Semgrep arbeiten mit Mustererkennung. Sie scannen Code auf bekannte Schwachstellensignaturen: SQL-Injection-Muster, Buffer-Overflow-Vorlagen, fest einprogrammierte Credentials. Das funktioniert zuverlässig für bekannte Schwachstellenklassen, ist aber strukturell blind für alles, was ein Verständnis der Komponenteninteraktion erfordert. Geschäftslogik-Fehler, mehrstufige Authentifizierungsumgehungen und Race Conditions bleiben bei Pattern-Matching-Scannern unsichtbar.

Codex Security arbeitet grundlegend anders. Angetrieben von GPT-5.4, operiert der Agent in drei Stufen:

Stufe 1: Bedrohungsmodell-Generierung

Der Agent analysiert die gesamte Repository-Struktur und identifiziert sicherheitsrelevante Komponenten: Einstiegspunkte, Vertrauensgrenzen, Authentifizierungsannahmen, Datenflusspfade und risikobehaftete Codebereiche. Das resultierende Bedrohungsmodell ist für Teams einsehbar und editierbar. Konzeptionell entspricht das dem, was ein menschlicher Sicherheitsberater nach einer einwöchigen Architekturanalyse liefern würde, nur eben in Minuten statt Tagen.

Stufe 2: Schwachstellenerkennung auf Commit-Ebene

Statt den Code als statischen Snapshot zu scannen, geht Codex Security Commit für Commit durch. Jede Änderung wird gegen das Bedrohungsmodell bewertet. Der Agent klassifiziert Funde nach tatsächlicher Ausnutzbarkeit, nicht nur nach Mustererkennungs-Konfidenz. Laut OpenAIs Dokumentation sanken die False-Positive-Raten über alle Beta-Repositories um mehr als 50 %, ein Projekt meldete sogar 84 % weniger Fehlalarme.

Stufe 3: Sandbox-Validierung

Das Feature, das Codex Security von den meisten Wettbewerbern unterscheidet. Der Agent versucht, jede gefundene Schwachstelle in einer isolierten Container-Umgebung nachzustellen. Er protokolliert, ob die Ausnutzung gelungen ist oder nicht, inklusive Logs, Befehlen und Artefakten als Beweis. Eine Schwachstelle, die der Agent tatsächlich in einer Sandbox ausnutzen kann, hat deutlich mehr Gewicht als ein Regex-Treffer.

Was Codex Security gefunden hat: 14 CVEs in echten Projekten

Der 30-Tage-Betatest lieferte handfeste Ergebnisse. Von 10.561 schwerwiegenden Funden wurden 792 als kritisch eingestuft. Vierzehn führten zu formellen CVE-Zuweisungen über OpenAIs koordiniertes Offenlegungsverfahren.

GnuTLS erhielt drei CVEs: CVE-2025-32990 (Heap-Buffer-Overflow in certtool), CVE-2025-32989 (Heap-Buffer-Overread im SCT-Extension-Parsing) und CVE-2025-32988 (Double-Free in otherName SAN Export). Das sind genau die Memory-Safety-Bugs, die klassische SAST-Tools routinemäßig übersehen, weil sie die Allokations- und Deallokationspfade über Funktionsgrenzen hinweg verstehen müssten.

GOGS, der populäre selbst-gehostete Git-Service, hatte zwei kritische Funde: CVE-2025-64175 (2FA-Bypass) und CVE-2026-25242 (Unauthentifizierter Bypass). Authentifizierungslogik-Bugs sind genau die Kategorie, bei der Pattern-Matching-Scanner versagen und reasoning-basierte Analyse glänzen kann.

GnuPG/gpg-agent wies zwei Stack-Buffer-Overflows auf. Weitere CVEs betrafen Path Traversal, LDAP Injection, unauthentifiziertes Denial-of-Service und Session-Fixation-Schwachstellen.

Das sind keine synthetischen Benchmarks. Es handelt sich um echte Schwachstellen in produktiver Open-Source-Software, die menschliche Sicherheitsforscher und bestehende automatisierte Tools übersehen hatten. The Hacker News berichtete, und SecurityWeek bestätigte die CVE-Zuweisungen.

Von Aardvark zu Codex Security: Was sich geändert hat

Aardvark wurde am 30. Oktober 2025 vorgestellt und war OpenAIs erster dedizierter Security-Agent. Aufgebaut auf GPT-5 und nur in der privaten Beta verfügbar, führte er das Kernkonzept ein: kontinuierliches, Commit-basiertes Repository-Scanning mit Sandbox-gestützter Exploit-Validierung. Während des eingeschränkten Einsatzes erkannte er rund 92 % der bekannten Schwachstellen in Benchmark-Repositories und deckte reale Fehler auf, die zu 10 CVEs führten.

Der Übergang von Aardvark zu Codex Security am 6. März 2026 brachte mehrere Verbesserungen. OpenAI optimierte die Art, wie Nutzer dem Agenten Projektkontext bereitstellen, und verbesserte die Qualität der Funde anhand der Deployment-Erkenntnisse aus der Beta. Das zugrunde liegende Modell wurde auf GPT-5.4 aufgerüstet. Die grundlegende Architektur blieb gleich: Bedrohungsmodell-Generierung, dann Commit-Level-Scanning, dann Sandbox-Validierung.

Ian Brelinsky vom Codex-Security-Team sagte gegenüber Axios: “Wir wollten sicherstellen, dass wir Verteidiger stärken.”

Codex Security vs. etablierte Tools: Der Vergleich

Der Markt für Security-Scanning-Tools ist nicht gerade unterbesetzt. So schlägt sich Codex Security im Vergleich zu dem, was die meisten Teams bereits einsetzen.

Snyk und SonarQube

Beide integrieren sich tief in Developer-Workflows: IDE-Plugins, CLI-Tools, CI/CD-Pipeline-Gates und Compliance-Reporting-Dashboards. Sie können einen Pull Request blockieren, wenn er eine neue Schwachstelle einführt. Sie produzieren Audit-Trails, die SOC-2- und ISO-27001-Anforderungen erfüllen. Codex Security bietet davon nichts. Man startet Scans über die ChatGPT-Web-Oberfläche, prüft Funde dort und wendet vorgeschlagene Patches manuell an.

Für Unternehmen in der DACH-Region, die nach DSGVO und dem EU AI Act Compliance-konforme Sicherheitstools benötigen, bleiben Snyk und SonarQube unverzichtbar. Codex Security ersetzt sie nicht; es findet andere Dinge.

GitHub Copilot Autofix

Copilots Security-Features arbeiten inline beim Coden und markieren SQL-Injection oder fest einprogrammierte Geheimnisse in Echtzeit. Allerdings zeigt Forschung, dass Copilots Code-Review “häufig kritische Schwachstellen wie SQL-Injection, XSS und unsichere Deserialisierung nicht erkennt” und primär niedrigprioritäre Probleme wie Stilfragen und Tippfehler findet. Codex Security operiert auf einer anderen Ebene: post-commit Repository-weite Analyse statt inline Vorschläge.

Anthropics Claude Code Security

Anthropic startete Claude Code Security im gleichen Zeitraum, mit mehrstufiger Selbstverifikation und kontextuellem Reasoning. VentureBeat analysierte, dass beide Tools “den strukturellen blinden Fleck von SAST aufgedeckt” haben, warnte aber: “Weder Anthropic noch OpenAI hat seine Erkennungsbehauptungen einem unabhängigen Drittpartei-Audit unterzogen.” Bei einer Checkmarx-Zero-Evaluierung eines Produktions-Codebasis identifizierte Claude Code Security 8 Schwachstellen, von denen nur 2 echte Treffer waren.

Was fehlt: Die Lücken, die Sicherheitsteams kennen sollten

Die ehrliche Einschätzung: Codex Security findet Bugs, die andere Tools übersehen, kann sich aber noch nicht in die Arbeitsweise der meisten Teams einfügen.

Keine CI/CD-Integration. Man kann Codex Security nicht als GitHub-Actions-Step oder GitLab-Pipeline-Stage einbinden. Jeder Scan muss manuell über die ChatGPT-Oberfläche gestartet werden. Für ein Tool, das Enterprise-Security-Teams anspricht, ist das eine erhebliche Workflow-Lücke.

Kein IDE-Plugin. Anders als Snyk, SonarQube oder selbst Copilot gibt es keine VS-Code- oder JetBrains-Extension. Entwickler bekommen kein Codex-Security-Feedback, ohne ihren Editor zu verlassen.

Keine veröffentlichte Sprachabdeckung. OpenAI hat nicht spezifiziert, welche Programmiersprachen Codex Security abdeckt oder wie tief die Analyse je Sprache geht.

Kein unabhängiges Audit. Die 10.561 Schwachstellen und die 50-%-False-Positive-Reduktion sind OpenAIs eigene Metriken. Keine Drittpartei-Sicherheitsforschungsfirma hat diese Zahlen unabhängig validiert.

Das Tool selbst hatte eine Schwachstelle. Check-Point-Forscher fanden einen RCE-Bug in Codex CLI (behoben in v0.23.0), bei dem eine manipulierte .env-Datei CODEX_HOME umleiten und stille Remote-Code-Ausführung ermöglichen konnte. Die Ironie, dass ein Security-Scanning-Tool mit einem RCE ausgeliefert wird, bleibt niemandem verborgen.

Für wen Codex Security heute Sinn ergibt

Codex Security funktioniert am besten als zusätzliche Schicht für Teams, die bereits etablierte Security-Tools einsetzen. Die Stärke liegt beim Finden von Schwachstellenklassen, die Pattern-Matching-Tools übersehen: Authentifizierungslogik-Bugs, komplexe Memory-Safety-Probleme, mehrstufige Exploitationspfade.

Wer ein ChatGPT-Enterprise- oder Pro-Abo hat, bekommt während der Research Preview Zugang (erster Monat kostenlos). Es lohnt sich, den Agent gegen eine bekannte Codebasis laufen zu lassen und die Ergebnisse mit den bestehenden SAST-Resultaten zu vergleichen. Die Differenz zwischen dem, was Codex findet, und dem, was die bestehenden Tools finden, ist der eigentliche Wertmaßstab.

OpenAI hat außerdem das Codex-for-OSS-Programm am 7. März gestartet. Open-Source-Maintainer bekommen sechs Monate kostenlos Zugang. Projekte wie vLLM nutzen es bereits.

Für DACH-Sicherheitsteams, die den EU AI Act und die DSGVO-Anforderungen im Blick behalten müssen: Codex Security bietet derzeit keine Compliance-Reporting-Funktionen. Die bestehende Toolchain aus Snyk, SonarQube oder Checkmarx bleibt für regulatorische Anforderungen unverzichtbar. Aber als ergänzende Erkennungsschicht, die blinde Flecken klassischer Scanner aufdeckt, ist es einen Test wert.

Häufig gestellte Fragen

Was ist OpenAI Codex Security?

OpenAI Codex Security ist ein KI-gestützter Security-Agent, der Code-Repositories auf Schwachstellen scannt. Er erstellt Bedrohungsmodelle, erkennt Schwachstellen auf Commit-Ebene, validiert Funde in Sandbox-Umgebungen und schlägt Patches vor. Er ist der Nachfolger von OpenAIs Aardvark-Agent und verfügbar für ChatGPT Pro-, Enterprise-, Business- und Edu-Kunden.

Wie viele Schwachstellen hat Codex Security gefunden?

Während der 30-tägigen Beta scannte Codex Security 1,2 Millionen Commits und identifizierte 10.561 schwerwiegende Schwachstellen, darunter 792 kritische Funde. Vierzehn davon führten zu formellen CVE-Zuweisungen in Projekten wie GnuTLS, GOGS, GnuPG und weiteren.

Ist Codex Security besser als Snyk oder SonarQube?

Codex Security findet Schwachstellenklassen, die Pattern-Matching-Tools wie Snyk und SonarQube übersehen, insbesondere Geschäftslogik-Fehler und komplexe Memory-Safety-Probleme. Allerdings fehlen ihm CI/CD-Integration, IDE-Plugins und Compliance-Reporting, die etablierte Tools bieten. Die meisten Teams sollten Codex Security als zusätzliche Schicht einsetzen, nicht als Ersatz.

Was ist der Unterschied zwischen Aardvark und Codex Security?

Aardvark war OpenAIs privater Beta-Security-Agent, gestartet im Oktober 2025 auf Basis von GPT-5. Codex Security ist die öffentliche Research Preview, die Aardvark am 6. März 2026 ablöste, mit verbesserter Kontexteingabe, höherer Fundqualität und einem Upgrade auf GPT-5.4. Die Kernarchitektur aus Bedrohungsmodell-Generierung, Commit-Level-Scanning und Sandbox-Validierung blieb gleich.

Was kostet OpenAI Codex Security?

Codex Security befindet sich derzeit in der Research Preview. Der erste Monat ist kostenlos für ChatGPT Pro-, Enterprise-, Business- und Edu-Abonnenten. Preise nach der Preview-Phase wurden noch nicht bekanntgegeben. Für Open-Source-Maintainer gibt es das Codex-for-OSS-Programm mit sechs Monaten kostenlosem Zugang.

So funktioniert Codex Security: Bedrohungsmodelle statt Mustererkennung#

Stufe 1: Bedrohungsmodell-Generierung#

Stufe 2: Schwachstellenerkennung auf Commit-Ebene#

Stufe 3: Sandbox-Validierung#

Was Codex Security gefunden hat: 14 CVEs in echten Projekten#

Von Aardvark zu Codex Security: Was sich geändert hat#

Codex Security vs. etablierte Tools: Der Vergleich#

Snyk und SonarQube#

GitHub Copilot Autofix#

Anthropics Claude Code Security#

Was fehlt: Die Lücken, die Sicherheitsteams kennen sollten#

Für wen Codex Security heute Sinn ergibt#

Häufig gestellte Fragen#

Was ist OpenAI Codex Security?#

Wie viele Schwachstellen hat Codex Security gefunden?#

Ist Codex Security besser als Snyk oder SonarQube?#

Was ist der Unterschied zwischen Aardvark und Codex Security?#

Was kostet OpenAI Codex Security?#