Promptfoo: Das Open-Source Red-Teaming-Tool, das OpenAI für 86 Millionen Dollar gekauft hat

Foto von Tima Miroshnichenko auf Pexels (freie Lizenz) Source

Promptfoo ist ein CLI-Tool, das Tausende automatisierter Angriffe auf einen KI-Agenten feuert und aufzeigt, welche durchkommen. Es prüft über 50 Schwachstellentypen: Prompt Injection, PII-Leaks, RBAC-Umgehung, unerlaubte Tool-Aufrufe. Mit 18.000+ GitHub-Sternen, 350.000+ Nutzern und bestätigtem Einsatz bei über 25% der Fortune-500-Unternehmen ist Promptfoo zur Standard-Wahl für Open-Source-KI-Red-Teaming geworden. Am 9. März 2026 gab OpenAI die Übernahme bekannt, für geschätzt 86 Millionen Dollar. Das klarste Signal bisher: Sicherheitstests für KI-Agenten sind kein optionales Extra mehr, sondern kritische Infrastruktur.

Das ist relevant, weil die meisten Teams ihre KI-Agenten immer noch ohne jede adversariale Prüfung in Produktion bringen. Einige manuelle Prompts, der Happy Path funktioniert, fertig. Promptfoo automatisiert genau den Teil, bei dem jemand den Agenten brechen soll, bevor es ein echter Angreifer tut.

Wie Promptfoo funktioniert: Plugins, Strategien und LLM-als-Richter

Die Red-Teaming-Architektur von Promptfoo besteht aus drei Komponenten: Plugins generieren adversariale Eingaben, Strategien bestimmen die Angriffstechnik, und ein LLM-Richter bewertet die Ergebnisse.

Plugins: Was angegriffen wird

Jedes Plugin zielt auf einen bestimmten Schwachstellentyp. Das Prompt-Injection-Plugin erzeugt Eingaben, die Systemanweisungen überschreiben sollen. Das PII-Plugin sucht nach Datenlecks. Das RBAC-Plugin testet, ob der Agent Zugriffsrechte respektiert. Die Konfiguration erfolgt per YAML:

redteam:
  plugins:
    - prompt-injection
    - pii-direct
    - rbac
    - shell-injection
    - excessive-agency
  strategies:
    - jailbreak
    - base64
    - crescendo

Promptfoo liefert über 50 Plugins für Sicherheit, Datenschutz, schädliche Inhalte, Bias und branchenspezifische Compliance-Checks für Gesundheitswesen, Finanzsektor und Versicherungen.

Strategien: Wie angegriffen wird

Strategien verpacken Plugin-generierte Payloads in Zustelltechniken, die Content-Filter umgehen sollen. Base64-Kodierung, Leetspeak-Verschleierung, Crescendo-Eskalation über mehrere Gesprächsrunden und Metas GOAT-Framework für konversationelle Angriffe sind eingebaut. Ein Release vom Januar 2026 brachte Emoji-Kodierung und eine “Mischievous User”-Strategie, die subtil manipulative Nutzer über mehrere Gesprächsrunden simuliert.

Die leistungsfähigste Strategie heißt Hydra. Hydra hält persistenten Speicher über einen gesamten Scan aufrecht, wechselt zwischen Gesprächszweigen und verfeinert Angriffe basierend auf vorherigen Antworten. Wenn eine direkte Prompt Injection scheitert, probiert Hydra automatisch indirekte Ansätze, Kodierungstricks und mehrstufige Eskalation. Das kommt der Arbeitsweise eines menschlichen Red Teamers sehr nahe: Strategie anpassen, basierend auf dem, was das Ziel preisgibt.

LLM-als-Richter-Bewertung

Nach jedem Angriff bewertet ein LLM (standardmäßig GPT-5), ob die Schwachstelle ausgenutzt wurde. Hat der Agent PII geleakt? Hat er die injizierte Anweisung befolgt? Hat er eine unerlaubte Aktion ausgeführt? Der Richter erzeugt ein Pass/Fail-Ergebnis mit Erklärung, und die Ergebnisse aggregieren zu einem Dashboard, das die Gesamtsicherheitslage des Agenten zeigt.

Manuelle Durchsicht von Tausenden Angriff-Antwort-Paaren ist nicht machbar. Automatisierte Bewertung ermöglicht umfassende Scans als Teil der CI/CD-Pipeline, sodass Regressionen vor dem Production-Deployment auffallen.

Was Promptfoo tatsächlich findet

Die Schwachstellen-Taxonomie bildet direkt auf die OWASP LLM Top 10 ab und deckt sechs Kategorien ab, die für Agent-Entwickler zählen.

Sicherheit und Zugriffskontrolle. Prompt Injection (direkt und indirekt), SQL Injection, Shell Injection, SSRF, BOLA (Broken Object Level Authorization), RBAC-Bypass, Debug-Zugriff und Extraktion von System-Prompts. Das sind die Schwachstellen, über die Angreifer die Kontrolle über den Agenten übernehmen oder auf Daten zugreifen, die sie nicht sehen sollten.

Datenschutz. Direkte PII-Offenlegung, Session-Datenlecks zwischen Nutzern und DSGVO-relevante Compliance-Checks. Für Unternehmen im DACH-Raum besonders kritisch: Die DSGVO verlangt seit 2018 technische und organisatorische Maßnahmen zum Schutz personenbezogener Daten. Ein KI-Agent, der im Kundenkontakt PII leakt, ist ein Bußgeldrisiko. Promptfoo findet die Stellen, an denen das passiert.

Exzessive Handlungsfähigkeit. Die OWASP-Risikokategorie, die einzigartig für Agenten ist. Kann der Agent zu Aktionen überredet werden, die über seinen Zweck hinausgehen? Kann er dazu gebracht werden, Tools aufzurufen, zu denen er keinen Zugang haben sollte? Promptfoo testet auf Ziel-Hijacking, unerlaubte Tool-Ausführung und Privilegieneskalation durch Gesprächsmanipulation.

Schädliche Inhalte und Bias. Generierung von Hassrede, Selbstverletzungsinhalten, Radikalisierungspfaden und Bias über Alter, Geschlecht, Behinderung und Herkunft. Für kundenseitige Agenten essentiell, wo eine einzige toxische Antwort zum PR-Desaster wird.

Fehlinformationen. Halluzinationserkennung, Generierung falscher Behauptungen, Wettbewerber-Imitation und unerlaubte professionelle Beratung (medizinisch, rechtlich, finanziell). Promptfoo prüft, ob der Agent selbstbewusst Dinge behauptet, die nicht stimmen.

Branchenspezifische Compliance. Vorkonfigurierte Plugin-Sets für Gesundheitswesen (HIPAA-Verstöße, falsches medizinisches Wissen), Finanzsektor (Berechnungsfehler, Compliance-Verstöße), Versicherungen (PHI-Offenlegung, Diskriminierung bei der Deckung) und E-Commerce (Preismanipulation, Bestandsbehauptungen).

Promptfoo vs. PyRIT vs. Garak: Welches Red-Teaming-Tool passt

Drei Open-Source-Tools dominieren das KI-Red-Teaming 2026. Sie überlappen, aber jedes optimiert für einen anderen Workflow.

Promptfoo (MIT, 18.000+ Sterne) ist der Generalist. Es kombiniert Red Teaming mit allgemeiner Evaluation, läuft als CLI mit YAML-Konfiguration und integriert nativ in CI/CD-Pipelines (GitHub Actions, GitLab CI, Jenkins). Am besten für: Teams, die Red Teaming als Teil ihres Entwicklungsworkflows wollen, nicht als separate Sicherheitsübung. 50+ Plugins und das adaptive Hydra-System machen es zum umfassendsten Scanner.

PyRIT (MIT, Microsoft) ist das programmatische Orchestrierungs-Framework. In Python geschrieben, behandelt es Red Teaming als Coding-Aufgabe: Man schreibt Python-Skripte, die Angriffskampagnen über Orchestratoren, Scorer und Converter definieren. Am besten für: Sicherheitsforscher und professionelle Red Teamer, die volle Kontrolle über die Angriffslogik wollen und bereits in Python arbeiten.

Garak (Apache 2.0, NVIDIA) ist der Schwachstellen-Scanner. 120+ Probe-Module testen Modell-Endpoints auf bekannte Schwachstellenmuster. Am besten für: Tests des rohen Modellverhaltens vor der Integration in einen Agenten. Garak fokussiert auf Modell-Level-Schwachstellen statt auf die Anwendungsschicht-Probleme (Tool-Missbrauch, RBAC-Bypass, agentische exzessive Handlungsfähigkeit), die Promptfoo abdeckt.

Für Entwicklerteams, die Agenten bauen und Sicherheitstests in der Pipeline wollen: mit Promptfoo starten. Für Sicherheitsteams mit strukturierten Red-Team-Kampagnen: PyRIT evaluieren. Für Tests der Basismodell-Sicherheit vor dem Aufbau: Garak füllt diese Lücke.

Die OpenAI-Übernahme: Was sich ändert und was nicht

Am 9. März 2026 gab OpenAI die Übernahme von Promptfoo bekannt. Der Deal bewertete das 11-Personen-Startup auf rund 86 Millionen Dollar, basierend auf der Post-Money-Bewertung von 85,5 Millionen Dollar aus einer Finanzierungsrunde im Juli 2025 unter Führung von a16z. Die Technologie wird in OpenAI Frontier integriert, die Enterprise-Plattform für Agent-Management, die im Februar 2026 gestartet ist und bereits Uber, State Farm, Intuit und Thermo Fisher Scientific als frühe Kunden zählt.

Drei Punkte, die hier zählen.

Promptfoo bleibt Open Source. OpenAI bestätigt, dass die MIT-Lizenz erhalten bleibt. Das GitHub-Repository nimmt weiterhin Beiträge entgegen. Ob das in drei Jahren noch gilt, ist eine andere Frage, aber aktuell bleibt das Tool frei nutzbar.

Das Integrationsziel ist Enterprise, nicht Entwickler-Tooling. Frontier ist OpenAIs Spiel für regulierte Branchen: Gesundheitswesen, Finanzdienstleistungen, Behörden. Diese Organisationen brauchen prüfbare Sicherheitstests für ihre KI-Agenten. Promptfoos automatisiertes Red Teaming füllt genau diese Lücke. Die 25%+ Fortune-500-Adoption gab OpenAI sofortige Enterprise-Verbreitung.

Vendor-Lock-in-Risiko ist real. Promptfoo unterstützt aktuell 30+ LLM-Anbieter, darunter Anthropic, Google, Meta und Open-Source-Modelle über Ollama. Die Open-Source-Zusage schützt das vorerst. Aber die kommerzielle Roadmap wird zwangsläufig OpenAIs eigene Modelle und APIs priorisieren. Teams, die auf nicht-OpenAI-Stacks aufbauen, sollten das Projekt genau beobachten. Für DACH-Unternehmen, die unter dem EU AI Act strengere Anforderungen an KI-Transparenz und Auditierbarkeit erfüllen müssen, bleibt die Frage der Anbieterunabhängigkeit bei Sicherheitstools besonders relevant.

Für Agent-Entwickler heute ändert sich praktisch nichts. Promptfoo funktioniert genau wie letzte Woche. Die Übernahme validiert die Kategorie: Wenn OpenAI 86 Millionen Dollar für KI-Agent-Sicherheitstests ausgibt, sollte ein Entwicklerteam vermutlich auch etwas Engineering-Zeit investieren.

Erste Schritte: Ein 15-Minuten Red-Team-Scan

Promptfoo installieren und den ersten Scan gegen einen beliebigen LLM-gestützten Endpoint starten:

npx promptfoo@latest init --no-interactive
npx promptfoo@latest redteam init

Das erzeugt eine promptfooconfig.yaml mit sinnvollen Standardwerten. Den eigenen Agent-API-Endpoint eintragen:

targets:
  - id: https
    config:
      url: "https://dein-agent.beispiel.de/api/chat"
      method: POST
      headers:
        Authorization: "Bearer {{env.API_KEY}}"
      body:
        message: "{{prompt}}"
      responseParser: "json.response"

Scan ausführen:

npx promptfoo@latest redteam run
npx promptfoo@latest redteam report

Promptfoo generiert adversariale Testfälle, sendet sie an den Endpoint, bewertet die Antworten und erstellt einen Bericht, der zeigt, welche Schwachstellenkategorien den Agenten betreffen. Das kostenlose Tier umfasst 10.000 Red-Team-Probes pro Monat, genug für kontinuierliches Scanning während der Entwicklung.

Für die CI/CD-Integration in den GitHub-Actions-Workflow einfügen:

- name: Red team scan
  run: npx promptfoo@latest redteam run --ci
  env:
    API_KEY: ${{ secrets.AGENT_API_KEY }}

Ein fehlschlagender Scan blockiert das Deployment, genau wie ein fehlschlagender Unit-Test. Das ist der Workflow-Wandel, den Promptfoo ermöglicht: Sicherheit als kontinuierliche Prüfung, nicht als vierteljährliches Audit.

Häufig gestellte Fragen

Was ist Promptfoo und was macht es?

Promptfoo ist ein Open-Source-CLI-Tool für Red Teaming und Evaluation von KI-Agenten und LLM-Anwendungen. Es generiert automatisch Tausende adversarialer Angriffe gegen das KI-System und testet auf über 50 Schwachstellentypen, darunter Prompt Injection, PII-Leaks, RBAC-Bypass und exzessive Handlungsfähigkeit. Ein LLM-als-Richter-System bewertet, ob jeder Angriff erfolgreich war.

Ist Promptfoo nach der OpenAI-Übernahme noch Open Source?

Ja. OpenAI hat bestätigt, dass Promptfoo nach der Übernahme im März 2026 unter der MIT-Lizenz Open Source bleibt. Das GitHub-Repository akzeptiert weiterhin Community-Beiträge. Die Technologie wird in OpenAI Frontier integriert, aber das Open-Source-Tool bleibt unabhängig verfügbar.

Wie unterscheidet sich Promptfoo von PyRIT und Garak?

Promptfoo ist der Generalist mit 50+ Plugins und CI/CD-Integration per YAML-Konfiguration. PyRIT (Microsoft) ist ein Python-Framework für programmatische Red-Team-Kampagnen mit granularerer Kontrolle. Garak (NVIDIA) ist ein Modell-Level-Schwachstellen-Scanner mit 120+ Probes, der auf Basismodell-Sicherheit fokussiert statt auf Anwendungsschicht-Probleme bei Agenten. Für Entwicklerteams, die Sicherheit in ihre Pipeline integrieren wollen, ist Promptfoo typischerweise der beste Einstieg.

Welche Schwachstellentypen kann Promptfoo bei KI-Agenten erkennen?

Promptfoo erkennt über 50 Schwachstellentypen in sechs Kategorien: Sicherheit und Zugriffskontrolle (Prompt Injection, SQL Injection, RBAC-Bypass), Datenschutz (PII-Offenlegung, Session-Leaks), exzessive Handlungsfähigkeit (Ziel-Hijacking, unerlaubte Tool-Nutzung), schädliche Inhalte und Bias, Fehlinformationen (Halluzinationen, falsche Behauptungen) und branchenspezifische Compliance-Probleme für Gesundheitswesen, Finanzsektor und Versicherungen.

Was kostet Promptfoo?

Promptfoos Open-Source-CLI ist kostenlos unter der MIT-Lizenz. Der gehostete Dienst bietet ein kostenloses Tier mit 10.000 Red-Team-Probes pro Monat, ausreichend für Tests in der Entwicklungsphase. Kostenpflichtige Enterprise-Tiers sind über OpenAI Frontier für Organisationen verfügbar, die höheres Volumen, persistente Dashboards und Enterprise-Support benötigen.

Wie Promptfoo funktioniert: Plugins, Strategien und LLM-als-Richter#

Plugins: Was angegriffen wird#

Strategien: Wie angegriffen wird#

LLM-als-Richter-Bewertung#

Was Promptfoo tatsächlich findet#

Promptfoo vs. PyRIT vs. Garak: Welches Red-Teaming-Tool passt#

Die OpenAI-Übernahme: Was sich ändert und was nicht#

Erste Schritte: Ein 15-Minuten Red-Team-Scan#

Häufig gestellte Fragen#

Was ist Promptfoo und was macht es?#

Ist Promptfoo nach der OpenAI-Übernahme noch Open Source?#

Wie unterscheidet sich Promptfoo von PyRIT und Garak?#

Welche Schwachstellentypen kann Promptfoo bei KI-Agenten erkennen?#

Was kostet Promptfoo?#