Das LLM besteht den Benchmark. Der Agent trifft trotzdem die falsche Entscheidung in Produktion. Die Lücke zwischen diesen beiden Ergebnissen liegt fast nie am Modell. Sie liegt daran, was das Modell sieht, wenn es entscheiden muss.

Philipp Schmid von Google DeepMind formuliert es unmissverständlich: “Die meisten Agent-Fehler sind keine Modellfehler mehr, sie sind Kontextfehler.” Diese Beobachtung sollte die Art verändern, wie Entwicklerteams über den Bau von Agenten nachdenken. Das Modell ist der Motor. Context Engineering ist die Straße, der Treibstoff und das Navigationssystem.

Context Engineering ist die Disziplin, die gesamte Informationsumgebung eines KI-Agenten zu entwerfen, zu verwalten und zu optimieren. Nicht nur den Prompt. Systeminstruktionen, Gesprächsverlauf, abgerufene Dokumente, Tool-Definitionen, Memory, strukturierter State und Output-Schemata. Alles orchestriert, damit die richtigen Tokens zur richtigen Zeit in der richtigen Reihenfolge ankommen.

Weiterlesen: KI-Agent-Frameworks im Vergleich: LangGraph, CrewAI, AutoGen

Warum Prompt Engineering an seine Grenzen stößt

Prompt Engineering war die richtige Disziplin für 2023. Ein einzelner Modell-Aufruf, ein statischer System-Prompt, ein Versuch für die richtige Antwort. Wortwahl optimieren, Few-Shot-Beispiele hinzufügen, Instruktionen umformulieren: Diese Tricks funktionierten, als das Kontextfenster 4.096 Tokens hatte und das Modell alles auf einmal sah.

Agenten haben dieses Modell gesprengt. Ein Produktionsagent, der eine 14-Schritte-Aufgabe ausführt, arbeitet nicht in einem einzigen Aufruf. Er akkumuliert State über Turns hinweg, ruft Tools auf, die unvorhersehbare Payloads zurückgeben, holt Dokumente unterschiedlicher Relevanz und trägt einen Gesprächsverlauf, der mit jeder Interaktion wächst. Bei Schritt 10 ist das Kontextfenster eine Deponie aus veralteten Tool-Outputs, irrelevantem Verlauf und redundanten Instruktionen.

Harrison Chase, CEO von LangChain, beschreibt das Kernproblem im Sequoia Capital Podcast: “Man weiß nicht, was der Kontext bei Schritt 14 sein wird, weil 13 Schritte davor beliebige Dinge hineinziehen können.” Der geschriebene Prompt ist eine Schicht. Die anderen sechs Kontextschichten, die man nicht explizit entworfen hat, entscheiden, ob der Agent funktioniert oder abstürzt.

Prompt Engineering dreht sich darum, was man dem Modell sagt. Context Engineering dreht sich darum, was das Modell weiß, wenn man es sagt.

Die sieben Schichten des Agent-Kontexts

InfoWorld identifiziert sieben Kontextschichten, die Produktionsagenten managen müssen. Diese Aufschlüsselung erklärt, warum “schreib einfach einen besseren Prompt” kein nützlicher Rat mehr ist.

Schicht 1-2: System- und User-Prompts

Das sind die Schichten, die Prompt Engineering bereits abdeckt. Der System-Prompt definiert Rolle, Grenzen und Verhaltensrichtlinien des Agenten. Der User-Prompt enthält die aktuelle Aufgabe. Zusammen machen sie vielleicht 5% des Kontextbudgets eines Produktionsagenten aus. Die restlichen 95% kommen aus den Schichten darunter.

Schicht 3-4: State und Langzeitspeicher

Kurzfristiger State ist der Notizblock der Konversation. LangGraph implementiert das über Checkpointing: Persistierung des Agent-States über jeden Schritt, sodass der Agent Zwischenergebnisse schreiben, Fortschritt verfolgen und nach Unterbrechungen weitermachen kann.

Langzeitspeicher ist das, was der Agent über Sitzungen hinweg erinnert. Zeps Graphiti Temporal Knowledge Graph liefert Abrufzeiten unter 200ms mit einer 18,5% Genauigkeitsverbesserung gegenüber Baseline-Ansätzen, weil er verfolgt, wie sich Fakten über die Zeit verändern, anstatt Memory als statischen Dump zu behandeln.

Schicht 5-7: Abgerufenes Wissen, Tools und Output-Schemata

RAG, Tool-Definitionen und strukturierte Output-Spezifikationen vervollständigen den Kontext. Jede dieser Komponenten konkurriert um dasselbe endliche Token-Budget. Ein RAG-Abruf, der 10 Dokumente mit je 1.500 Tokens holt, verbrennt 15.000 Tokens, bevor das Modell die Frage überhaupt sieht. Multipliziert mit Tool-Definitionen und Gesprächsverlauf wird klar, warum Kontextmanagement eine Ingenieursdisziplin ist, keine Schreibübung.

Weiterlesen: MCP und A2A: Protokolle für KI-Agent-Kommunikation

Vier Fehlermodi, die Agenten zerstören

Kontext läuft nicht einfach über. Er verrottet. InfoWorld kategorisiert vier Fehlermuster, die die meisten Produktionsausfälle von Agenten erklären:

Context Poisoning passiert, wenn das Modell bei Schritt 3 einen Fakt halluziniert, ihn bei Schritt 7 als Grundwahrheit behandelt und darauf eine Kaskade falscher Entscheidungen aufbaut. Ohne explizite Verifikations-Checkpoints potenzieren sich Halluzinationen.

Context Distraction tritt auf, wenn ein Agent mit zu viel Verlauf sich auf einen irrelevanten früheren Austausch fixiert statt auf die aktuelle Aufgabe. Der “Lost-in-the-Middle”-Effekt ist gut dokumentiert: Modelle priorisieren Informationen am Anfang und Ende ihres Kontexts, kritische Fakten in der Mitte werden ignoriert.

Context Confusion entsteht, wenn abgerufene Dokumente der aktuellen Aufgabe oder einander widersprechen. Ein Agent, der ein Rechtsdokument zusammenfassen soll, ruft drei Versionen ab und produziert eine Antwort, die widersprüchliche Klauseln vermengt.

Context Clash ist der subtilste Fehler. Neue Informationen widersprechen früherem Kontext, aber das Modell kann nicht unterscheiden, welche Version autoritativ ist. Ohne explizite Vorrangregeln mittelt es den Widerspruch, statt zu entscheiden.

Wie Produktionsteams Context Engineering tatsächlich umsetzen

Die Teams, die 2026 die leistungsfähigsten Agenten bauen, Manus, Factorys Droids und Anthropics Claude Code, konvergieren auf dieselben Kernstrategien. Anthropic hat sie als fünf Operationen formalisiert: Selektieren, Komprimieren, Ordnen, Isolieren und Formatieren.

Selektieren: Weniger Kontext ist meist besser

Der Instinkt, dem Agenten “alles zu geben, was er brauchen könnte”, ist zuverlässig falsch. Five Sigma Insurance fand heraus, dass ein kuratiertes Schema aus Policendaten, Schadenshistorie und relevanten Regulierungen über 95% Genauigkeit erreichte, während der volle Dokumentenkorpus deutlich weniger schaffte. Das Signal-Rausch-Verhältnis zählt mehr als die Gesamtmenge an Information.

Just-in-Time-Loading ist das Produktionsmuster. Statt Dokumente vorab zu laden, werden leichtgewichtige Identifier (Dateipfade, URLs, Datenbankabfragen) vorgehalten und Daten erst abgerufen, wenn der aktuelle Schritt des Agenten sie braucht.

Komprimieren: Die Kunst des strategischen Vergessens

LangChains Deep Agents Harness implementiert eine dreistufige Kompressionsstrategie. Wenn eine Tool-Antwort 20.000 Tokens überschreitet, wird sie ins Dateisystem ausgelagert, mit einem Dateipfad-Verweis und einer 10-Zeilen-Vorschau. Wenn der Kontext 85% des verfügbaren Modellfensters erreicht, werden Dateieingaben gekürzt. Wenn beides nicht reicht, erzeugt das System eine strukturierte Zusammenfassung: Sitzungsziel, erstellte Artefakte, nächste Schritte. Die vollständige Historie bleibt auf der Festplatte für späteren Abruf.

Semantische Kompression kann den Token-Verbrauch um 50-80% reduzieren und dabei die Information bewahren, die das Modell tatsächlich braucht. Redis berichtet, dass semantisches Caching über LangCache 50-80% Kosteneinsparungen liefert.

Ordnen: Wo Information steht, zählt

Das todo.md-Muster von Manus ist aufschlussreich. Der Agent erstellt und überschreibt ständig eine Aufgabenliste, die den Gesamtplan in das jüngste Aufmerksamkeitsfenster des Modells schiebt. Das nutzt den Recency Bias der Transformer-Attention: Information am Ende des Kontexts bekommt überproportional viel Gewicht. Durch ständiges Neuschreiben des Plans stellt Manus sicher, dass der Agent das strategische Gesamtbild immer in seiner höchsten Aufmerksamkeitszone hat.

Isolieren: Sub-Agenten als Kontext-Firewalls

Wenn eine Aufgabe erfordert, eine große Codebase zu durchsuchen, ein langes Dokument zu parsen und eine Zusammenfassung zu schreiben, hat ein einzelner Agent mit allen drei Jobs einen verschmutzten Kontext, bevor er die Zusammenfassung erreicht. Das Isolationsmuster delegiert jede Teilaufgabe an einen separaten Agenten mit einem sauberen Kontextfenster. Der Eltern-Agent erhält nur das Ergebnis, nicht den gesamten Arbeitsspeicher jedes Kind-Agenten.

Anthropics Daten zeigen, dass Sitzungen, die bei 75% Kontextauslastung stoppen, qualitativ hochwertigere und besser wartbare Ergebnisse produzieren als Sitzungen, die ans Limit gehen.

Weiterlesen: Agentic AI Observability: Warum Monitoring zur Control Plane wird

Memory-Architektur: Das Vier-Stufen-Modell

Produktionsagenten brauchen vier unterschiedliche Memory-Stufen, jeweils mit verschiedenen Latenz-, Persistenz- und Abrufcharakteristiken:

StufeUmfangLatenzPersistenzBeispiel
Working MemoryAktuelles KontextfensterNullFlüchtigAktive Konversation
Short-Term MemorySitzungspersistentNiedrigSitzungLangGraph Checkpoints
Long-Term MemorySitzungsübergreifendMittelSemi-permanentNutzerpräferenzen, Projektkontext
Permanent MemoryArchivHöherPermanentCompliance-Logs, Trainingsdaten

Die Infrastruktur entwickelt sich schnell. Redis kombiniert Vektorsuche, semantisches Caching und Session-Management mit Sub-Millisekunden-Latenz. MongoDB integriert mit LangGraph für threadübergreifende Persistenz. Zep baut temporale Wissensgraphen, die Entity-Beziehungen über die Zeit verfolgen, mit 18,5% Genauigkeitsverbesserung bei 90% Latenzreduktion gegenüber Standard-RAG.

Die Cognitive Workspace-Studie (2025) fand eine Memory-Wiederverwendungsrate von 58,6% bei Agenten mit strukturiertem State-basiertem Memory, verglichen mit 0% bei klassischem RAG. Diese Zahl erfasst die Kernerkenntnis: Agenten, die strukturierte Fakten erinnern, übertreffen Agenten, die alles von Grund auf neu abrufen.

Die Infrastruktur holt auf

Context Engineering ist nicht nur ein Software-Muster. Auch die Hardware passt sich an.

NVIDIAs Rubin CPX GPU, vorgestellt auf der CES 2026, ist speziell für Inferenz mit massivem Kontext gebaut. Das Vera Rubin System führt “Context Storage” als erstklassige Infrastrukturkomponente ein, wobei BlueField-4 DPUs den KV-Cache über das Netzwerk in gemeinsam genutzte NVMe-Pools auslagern können, statt ihn auf den lokalen GPU-Speicher zu beschränken.

Auf der Protokollseite wurde MCP (Model Context Protocol) im Dezember 2025 an die Agentic AI Foundation der Linux Foundation übergeben. Harrison Chase merkte an, dass “man den Begriff Context Engineering kaum von MCP trennen kann”, da MCP standardisiert, wie Agenten auf externe Tools und Datenquellen zugreifen: die Abrufschicht des Context Engineering. Für DACH-Unternehmen ist das besonders relevant, weil MCP-konforme Agenten transparenter auditierbar sind, ein Pluspunkt für DSGVO- und EU-AI-Act-Compliance.

Die Kontextfenster wachsen weiter. Gemini 3 Pro unterstützt 1 Million Tokens. Llama 4 Scout verarbeitet 10 Millionen. Aber größere Fenster lösen Context-Engineering-Probleme nicht. Sie verschärfen sie, weil der “Lost-in-the-Middle”-Effekt mit der Fenstergröße skaliert und Token-Kosten linear wachsen.

Einstieg: Eine pragmatische Checkliste

Für Teams, die heute Agenten bauen, konvergieren Forschung und Produktionserfahrung auf diese Empfehlungen:

  1. Kontextbudget auditieren. Berechnen, wie viele Tokens System-Prompt, Tool-Definitionen und typischer Gesprächsverlauf verbrauchen. Die meisten Teams entdecken, dass sie 40%+ ihres Budgets verbrennen, bevor der Agent echte Arbeit leistet.

  2. Kompression früh einbauen. Nicht warten, bis der Agent an Kontextgrenzen stößt. Auslagerungsschwellen bei 20K Tokens für Tool-Outputs und 85% für die Gesamtkontextauslastung setzen. LangChains Deep Agents Harness ist eine solide Referenzimplementierung.

  3. Memory stufen. Nicht alles muss im Kontextfenster sein. Checkpointing für Sitzungsstate, einen Vektorspeicher für sitzungsübergreifende Fakten und strukturierten State für hochprioritäre Regeln nutzen.

  4. Kontextqualität messen, nicht nur Quantität. Verfolgen, wie oft der Agent veraltete Informationen referenziert, wie häufig er bereits verfügbare Daten erneut abruft und wo im Kontextfenster kritische Fakten landen.

  5. Mit Isolation bei komplexen Aufgaben beginnen. Wenn ein Workflow mehr als 5 sequenzielle Tool-Aufrufe hat, eine Aufteilung auf Sub-Agenten mit sauberen Kontextgrenzen erwägen.

Anthropics Engineering-Leitlinie bringt es auf den Punkt: “Do the simplest thing that works.” Context Engineering besteht darin, den kleinstmöglichen Satz hochsignifikanter Tokens zu finden, der die Wahrscheinlichkeit eines guten Ergebnisses maximiert.

Weiterlesen: Was sind KI-Agenten? Ein praktischer Leitfaden für Entscheider

Häufig gestellte Fragen

Was ist Context Engineering für KI-Agenten?

Context Engineering ist die Disziplin, die gesamte Informationsumgebung eines KI-Agenten zu entwerfen, zu verwalten und zu optimieren. Dazu gehören Systeminstruktionen, Gesprächsverlauf, abgerufene Dokumente, Tool-Definitionen, Memory und strukturierter State. Im Unterschied zu Prompt Engineering, das sich auf die Formulierung an das Modell konzentriert, fokussiert Context Engineering darauf, was das Modell weiß, wenn es handeln muss.

Wie unterscheidet sich Context Engineering von Prompt Engineering?

Prompt Engineering optimiert ein einzelnes Input-Output-Paar: die Worte, die man dem Modell sendet. Context Engineering verwaltet den gesamten Informationsstack über mehrstufige Agent-Workflows hinweg, einschließlich State Management, Memory-Stufen, Kontextkompression, Tool-Integration und Abruforchestrierung. Prompt Engineering ist eine Teilmenge von Context Engineering.

Warum versagen KI-Agenten trotz großer Kontextfenster?

Große Kontextfenster erzeugen vier Fehlermodi: Context Poisoning (Halluzinationen als Fakten behandelt), Context Distraction (Fixierung auf irrelevanten Verlauf), Context Confusion (widersprüchliche Dokumente) und Context Clash (neue Informationen widersprechen früherem Kontext). Der Lost-in-the-Middle-Effekt bedeutet zudem, dass Modelle Informationen in der Mitte des Kontexts weniger beachten, unabhängig von der Fenstergröße.

Welche Tools und Frameworks unterstützen Context Engineering?

LangGraph bietet Checkpointing und Memory für Agent-State-Management. Redis liefert Sub-Millisekunden-Vektorsuche und semantisches Caching. Zep baut temporale Wissensgraphen mit 18,5% Genauigkeitsverbesserung. MCP standardisiert Tool- und Datenzugriff. NVIDIAs Rubin CPX GPUs sind speziell für Inferenz mit massivem Kontext gebaut.

Was ist die 75%-Kontextauslastungsregel?

Anthropics Forschung zeigt, dass Agent-Sitzungen, die bei 75% Kontextfenster-Auslastung stoppen, qualitativ hochwertigere und besser wartbare Ergebnisse produzieren als Sitzungen, die ans Limit gehen. Die verbleibenden 25% geben dem Modell Spielraum, den vorhandenen Kontext zu verarbeiten und zu analysieren, ohne Qualitätsverlust.