Foto von Taylor Vick auf Unsplash Source

OpenAI hat im Februar 2026 drei Upgrades für die Responses API veröffentlicht, die das Fundament der Plattform grundlegend verändern. Gehostete Shell-Container stellen jedem Agenten ein eigenes Debian-12-Terminal bereit. Server-Side Compaction hält Agenten über Sessions mit 5 Millionen Token und 150 Tool-Calls kohärent. Und SKILL.md-Unterstützung erlaubt es Agenten, modulare, versionierte Anleitungen zur Laufzeit zu laden. Zusammen verwandeln diese drei Funktionen die Responses API von einem Inferenz-Endpoint in eine vollständige Agenten-Plattform mit Rechenleistung, Gedächtnis und wiederverwendbaren Fähigkeiten.

Wer die Abschaltung der Assistants API verfolgt hat, bekommt hier die Antwort auf “Was kommt danach?” Die Responses API ist kein inkrementelles Update. Es ist OpenAIs Wette darauf, dass die Plattform gewinnt, die die gesamte Agenten-Laufzeitumgebung liefert, nicht nur die Modellgewichte.

Weiterlesen: OpenAI stellt die Assistants API ein: MCP hat den Interoperabilitäts-Krieg gewonnen

Hosted Shell: Jeder Agent bekommt ein Terminal

Das sichtbarste Upgrade ist container_auto. Dieser Parameter in der Responses-API-Anfrage provisioniert einen von OpenAI gehosteten Debian-12-Container für den Agenten. Kein eingeschränkter Code-Interpreter, sondern eine vollständige Terminal-Umgebung mit Python 3.11, Node.js 22, Java 17, Go 1.23 und Ruby 3.1 vorinstalliert.

{
  "model": "gpt-4.1",
  "tools": [
    {
      "type": "shell",
      "container": "container_auto"
    }
  ],
  "input": "Lade die aktuellen Wechselkurse und erstelle einen CSV-Bericht"
}

Ein einziger API-Call gibt dem Agenten ein Terminal, in dem er pip install ausführen, Skripte starten, Dateien herunterladen und Ergebnisse nach /mnt/data schreiben kann. Der Container hat kontrollierten Internetzugang, Agenten können also Abhängigkeiten installieren und externe APIs ansprechen. Nach Ende der Session wird der Container abgebaut. Kein Zustand bleibt zwischen Runs bestehen.

Warum das mehr ist als der Code Interpreter

OpenAIs Code Interpreter (jetzt “Code Runner”) existiert seit 2023, war aber immer eine eingeschränkte Sandbox: nur Python, begrenzte Pakete, kein Netzwerkzugang, keine Mehrsprachigkeit. Der gehostete Shell-Container ist grundlegend anders:

  • Mehrsprachige Ausführung. Der Agent kann ein Python-Skript für Datenverarbeitung, einen Node.js-Service für die Bereitstellung und ein Bash-Skript als Klammer schreiben, alles in einer Session.
  • Abhängigkeiten installieren. pip install pandas, npm install puppeteer, apt-get install ffmpeg, alles möglich im Container.
  • Netzwerkzugang. Agenten können APIs aufrufen, Repositories klonen und Datensätze herunterladen. Das ermöglicht Workflows, die in der alten Sandbox nicht denkbar waren.
  • Datei-I/O mit Artefakten. Alles, was nach /mnt/data geschrieben wird, steht nach der Session als herunterladbares Artefakt bereit.

Für Teams, die Datenpipelines, Berichtsgeneratoren oder Code-Analyse-Tools auf OpenAIs Plattform bauen, eliminiert der gehostete Shell-Container die Notwendigkeit, eigene Sandbox-Infrastruktur zu betreiben. Eine Container-Orchestrierungsschicht weniger, eine Sicherheitsgrenze weniger.

Weiterlesen: KI-Agent-Sandboxing: MicroVMs, gVisor und WASM für sichere Code-Ausführung

Server-Side Compaction: Gedächtnis, das nicht verblasst

Langlebige Agenten haben ein fundamentales Problem: Kontextfenster sind endlich. Sobald eine Konversation das Token-Limit des Modells überschreitet, muss man entweder abschneiden (frühen Kontext verlieren) oder zusammenfassen (Präzision verlieren). Beide Optionen verschlechtern die Agentenleistung bei mehrstufigen Workflows.

OpenAIs Server-Side Compaction geht einen anderen Weg. Wenn der Token-Zähler einen konfigurierten Schwellenwert überschreitet, analysiert das Modell seinen bisherigen Gesprächszustand und erzeugt eine komprimierte Repräsentation, die Schlüsselfakten, Entscheidungen und Zwischenergebnisse bewahrt. Das ist weder Abschneiden noch naive Zusammenfassung. Der kompaktierte Zustand ist ein verschlüsseltes, token-effizientes Artefakt, das das Modell speziell erzeugen und konsumieren kann.

{
  "model": "gpt-4.1",
  "context_management": {
    "compact_threshold": 100000
  },
  "input": "Fahre mit der Analyse des Datensatzes dort fort, wo wir aufgehört haben"
}

Triple Whales Beweis

Die E-Commerce-Analyseplattform Triple Whale gehörte zu den ersten Testern. Ihr Agent Moby bewältigte eine Session mit 5 Millionen Token und 150 Tool-Calls ohne Genauigkeitsverlust. Das entspricht ungefähr einem menschlichen Analysten, der eine komplexe Untersuchung über Hunderte von Datenabfragen durchführt und dabei jeden Fund, jede Sackgasse und jedes Zwischenergebnis im Kopf behält.

Vor der Compaction begannen Agenten nach 20-30 Tool-Calls zu halluzinieren oder den Faden zu verlieren. Triple Whale berichtete, dass Moby “tiefer, länger und weiter graben konnte, ohne den roten Faden zu verlieren.” Für Workflows wie Finanzabstimmung, Sicherheitslog-Analyse oder Multi-Table-Datenexploration verändert das, was Agenten zuverlässig leisten können.

Wie sich Compaction von Truncation unterscheidet

AnsatzWas passiertRisiko
TruncationÄlteste Nachrichten werden gelöschtVerlust des frühen Kontexts; Agent vergisst Setup-Anweisungen
Naive ZusammenfassungLLM fasst Verlauf zusammenVerlust von Präzision; Zahlen und Details gehen verloren
Server-Side CompactionModell erzeugt trainierten komprimierten ZustandBewahrt Schlüsselfakten in verschlüsseltem, token-effizientem Format

Der praktische Unterschied: Compaction ist trainiertes Verhalten, kein Prompt-Engineering. OpenAIs neueste Modelle (GPT-4.1 und höher) sind speziell darauf feingetunt, Compaction-Artefakte zu erzeugen und zu verarbeiten. Das Ergebnis ist keine verlustbehaftete Zusammenfassung, sondern ein strukturierter Zustands-Checkpoint, den das Modell zurück in funktionierenden Kontext expandieren kann.

Agent Skills: Modulare Fähigkeiten über SKILL.md

Das dritte Upgrade ist native Unterstützung für den SKILL.md-Standard, dieselbe offene Spezifikation, die Anthropic für Claude Code entwickelt hat und die OpenAI für Codex übernommen hat. Ein Skill ist ein Verzeichnis mit einem SKILL.md-Manifest (YAML-Frontmatter plus Markdown-Anweisungen) sowie optionalen Skripten, Vorlagen und Referenzdateien.

---
name: quartalsbericht
description: Erstellt formatierte Quartalsfinanzberichte
version: 1.2.0
---

# Quartalsbericht-Skill

## Wann verwenden
Aktivieren, wenn der Nutzer Quartalszahlen,
Umsatzaufschlüsselungen oder Periodenvergleiche anfordert.

## Anweisungen
1. Data Warehouse für das angegebene Quartal abfragen
2. YoY- und QoQ-Wachstumsraten berechnen
3. Diagramme mit matplotlib generieren
4. Als PDF mit Unternehmensbranding exportieren

Wenn ein Skill in eine Responses-API-Session geladen wird, konsultiert der Agent dessen Anweisungen, sobald eine passende Aufgabe anfällt. Skills werden vom Modell aufgerufen: Der Agent liest die verfügbaren Skill-Manifeste und entscheidet kontextbasiert, welche er aktiviert. Man triggert sie nicht manuell.

Skills + Shell = Wiederholbare Agenten-Workflows

Die echte Stärke entsteht, wenn Skills und der gehostete Shell-Container zusammenwirken. Ein Skill kann Skripte referenzieren, die in seinem Verzeichnis gebündelt sind. Der Agent liest die SKILL.md-Anweisungen, identifiziert die relevanten Skripte und führt sie im gehosteten Shell-Container aus. So lässt sich ein kompletter Workflow (Datenabruf, Transformation, Berichterstellung) als versionierter Skill verpacken, den jeder Agent aufgreifen und ausführen kann.

Ein Beispiel: ein DSGVO-Compliance-Audit-Skill:

compliance-audit/
  SKILL.md
  scripts/
    check_dsgvo_fields.py
    validate_aufbewahrungsfrist.py
  references/
    eu_ai_act_anforderungen.md

Ein Agent mit diesem Skill kann das komplette Audit in seinem Shell-Container durchführen, das EU-AI-Act-Referenzdokument für Kontext heranziehen und einen strukturierten Bericht erstellen. Der Skill ist versioniert, testbar und teamübergreifend nutzbar.

Das unterscheidet sich grundlegend von MCP-Tool-Integration. MCP gibt Agenten strukturierten Zugang zu externen Diensten (Datenbanken, APIs, Dateisysteme). Skills geben Agenten prozedurales Wissen: Schritt-für-Schritt-Anleitungen für spezifische Aufgaben. MCP ist der Werkzeugkasten. Skills sind das Handbuch. Beide integrieren sich in die Responses API, und die Kombination aus MCP-Tools, SKILL.md-Anweisungen und gehostetem Shell-Compute macht die Responses API zur Agenten-Plattform statt nur zum Inferenz-Endpoint.

Weiterlesen: KI-Agent-Skills-Marktplatz: Das neue Plugin-Ökosystem

Die Plattform-Strategie: Gehirn, Büro, Gedächtnis, Handbuch

VentureBeat bringt die Strategie auf den Punkt: OpenAI verkauft nicht mehr nur ein “Gehirn” (das Modell). Es verkauft das “Büro” (den Shell-Container), das “Gedächtnis” (Server-Side Compaction) und das “Handbuch” (Skills).

Das ist eine vertikale Integrationsstrategie. Vor diesen Upgrades bedeutete der Einsatz von OpenAI für Agenten: Modell aufrufen, Tokens zurückbekommen, alles andere selbst bauen. Man brauchte eine eigene Sandbox für Code-Ausführung, ein eigenes Kontextmanagement für lange Sessions und ein eigenes Skill-/Prompt-Verwaltungssystem. Jetzt bündelt OpenAI alle drei in die API-Schicht.

Was das für Architekturentscheidungen bedeutet

Für Teams, die Agenten auf OpenAI bauen, hat sich die Rechnung geändert:

Vorher: GPT-4 für Inferenz nutzen, eigene Docker-Container für Code-Ausführung betreiben, eigenes Kontextfenster-Management implementieren, Prompt-Templates im eigenen Repo verwalten.

Nachher: Responses API mit container_auto für Ausführung, compact_threshold für Kontextmanagement und SKILL.md-Dateien für wiederverwendbare Fähigkeiten nutzen. Der Infrastruktur-Footprint schrumpft auf “API aufrufen und Skills-Verzeichnis verwalten.”

Der Preis ist Vendor-Lock-in. Jede Funktion, die von der eigenen Infrastruktur zu OpenAIs Plattform wandert, erschwert die Migration. Wer den gehosteten Shell-Container intensiv nutzt und dann zu Anthropic oder einem Open-Source-Modell wechseln will, muss die gesamte Ausführungsschicht neu aufbauen. Wer auf Server-Side Compaction setzt, braucht eigenes Kontextmanagement. Der Komfort ist real, aber die Abhängigkeit ebenso.

Für Teams, die Portabilität wollen, ist der SKILL.md-Standard das Rettungsseil. Weil es eine offene Spezifikation ist, die sowohl OpenAI als auch Anthropic unterstützen, funktionieren Skills anbieterübergreifend. Shell und Compaction sind OpenAI-spezifisch, aber die Skills-Schicht ist portabel. Für Unternehmen im DACH-Raum, die ohnehin wegen DSGVO und EU AI Act strenge Anforderungen an Datenverarbeitung haben, ist die Frage der Portabilität keine technische Spielerei, sondern strategisch entscheidend.

Weiterlesen: KI-Agent-Frameworks im Vergleich: LangGraph, CrewAI, AutoGen

Wer diese Features nutzen sollte (und wer nicht)

Hosted Shell nutzen, wenn Agenten beliebigen Code ausführen, Abhängigkeiten installieren oder Dateiartefakte erzeugen müssen und man keine eigene Sandbox-Infrastruktur betreiben will. Datenanalyse-Agenten, Berichtsgeneratoren und Code-Review-Bots passen perfekt.

Hosted Shell weglassen, wenn persistente Umgebungen zwischen API-Calls nötig sind (Container sind ephemer), GPU-Zugang für ML-Workloads gebraucht wird oder Sicherheitsanforderungen verbieten, Code auf Drittanbieter-Infrastruktur auszuführen.

Compaction nutzen, wenn Agenten mehrstufige Workflows mit mehr als 20-30 Tool-Calls durchführen oder Kohärenz über Sessions hinweg halten müssen, die 100K Token überschreiten. Finanzanalyse-, Sicherheitsuntersuchungs- und Forschungssynthese-Agenten profitieren am meisten.

Compaction weglassen, wenn die Agenteninteraktionen kurz sind (unter 50K Token) oder die Workflows zustandslos sind. Compaction erzeugt zusätzliche Latenz und kostet zusätzliche Token für den Kompressionsschritt.

SKILL.md nutzen, wenn wiederverwendbare, versionierte Agentenfähigkeiten gewünscht sind, die mit OpenAI- und Anthropic-Produkten funktionieren. Skills sind besonders wertvoll für Teams, die Agentenverhalten projektübergreifend standardisieren.

SKILL.md weglassen, wenn der Agent eine einzelne, klar definierte Aufgabe erfüllt, die nicht variiert. Nicht alles muss ein Skill sein. Ein einfacher Function Call reicht für unkomplizierte Operationen.

Häufig gestellte Fragen

Was ist die OpenAI Responses API?

Die Responses API ist OpenAIs primäre Schnittstelle für den Bau von KI-Agenten. Sie ersetzt den Chat-Completions-Endpoint für Agenten-Workloads und ist der Nachfolger der abgeschalteten Assistants API. Sie unterstützt integrierte Tools (Websuche, Dateisuche, Code-Ausführung), MCP-Server-Integration, gehostete Shell-Container, Server-Side Compaction und SKILL.md Agent Skills.

Was ist container_auto in der OpenAI Responses API?

container_auto ist ein Parameter, der einen von OpenAI gehosteten Debian-12-Container für den Agenten provisioniert. Er enthält Python 3.11, Node.js 22, Java 17, Go 1.23 und Ruby 3.1 vorinstalliert, mit kontrolliertem Internetzugang und der Möglichkeit, zusätzliche Abhängigkeiten zu installieren. Der Container ist ephemer und wird nach Sitzungsende abgebaut.

Wie funktioniert Server-Side Compaction in der Responses API?

Server-Side Compaction wird ausgelöst, wenn der Token-Zähler einen konfigurierten Schwellenwert überschreitet. Das Modell analysiert seinen bisherigen Gesprächszustand und erzeugt eine komprimierte, verschlüsselte Repräsentation, die Schlüsselfakten und Entscheidungen bewahrt. Im Gegensatz zu Truncation ist Compaction trainiertes Verhalten: GPT-4.1 und höher sind speziell darauf feingetunt, diese komprimierten Zustands-Artefakte zu erzeugen und zu verarbeiten.

Was ist das SKILL.md-Format für KI-Agent-Skills?

SKILL.md ist ein offener Standard zur Definition modularer Agentenfähigkeiten. Ein Skill ist ein Verzeichnis mit einer SKILL.md-Datei mit YAML-Frontmatter (Name, Beschreibung, Version) und Markdown-Anweisungen, plus optionalen Skripten und Referenzdateien. Sowohl OpenAI als auch Anthropic unterstützen dieselbe Spezifikation, was Skills anbieterübergreifend portabel macht.

Ersetzt die OpenAI Responses API die Assistants API?

Ja. OpenAI hat die Assistants API im August 2025 abgekündigt, mit einem festen Abschaltdatum am 26. August 2026. Die Responses API, gepaart mit der Conversations API für zustandsbehaftete Interaktionen, ist der offizielle Nachfolger. OpenAI hat einen Migrationsleitfaden veröffentlicht, der die wichtigsten architektonischen Unterschiede abdeckt.