Contextual AI Agent Composer: Wie die RAG-Erfinder Enterprise-Agenten bauen

Das Team, das 2020 bei Meta das RAG-Paper geschrieben hat, sagt heute: Standalone-RAG ist für Enterprise-Anwendungen eine Sackgasse. Douwe Kiela, Erstautor dieser Forschung, gründete Contextual AI und brachte im Januar 2026 den Agent Composer auf den Markt. Die Plattform verwandelt statische Retrieval-Pipelines in agentenbasierte Systeme, die selbst entscheiden, wann, was und wie oft sie Daten abrufen. Ein Fertigungsunternehmen verkürzte die Fehleranalyse von 8 Stunden auf 20 Minuten. Ein Logistikdienstleister löst Probleme 60x schneller. Das sind keine Laborwerte, sondern Produktionszahlen von Unternehmen wie Qualcomm und Advantest.

Was Agent Composer konkret leistet

Agent Composer ist kein weiterer RAG-Wrapper. Es ist eine Orchestrierungsschicht, die wissensintensive Engineering-Workflows in autonome Agenten verwandelt. Die Plattform bietet drei Wege zur Agenten-Erstellung:

Vorgefertigte Templates decken gängige Enterprise-Muster ab: Fehlerursachenanalyse (Sensordaten-Parsing, Log-Korrelation, Fehlerdiagnose), Tiefenrecherche über technische Dokumentation, Compliance-Prüfung gegen regulatorische Anforderungen und strukturierte Extraktion aus unstrukturierten Dokumenten. Diese Templates sind produktionsbereit für Luft- und Raumfahrt, Halbleiter, Fertigung und Logistik.

Ein Natural-Language-Builder generiert eine funktionierende Agentenarchitektur aus einer Textbeschreibung. Man beschreibt den Bedarf, und Agent Composer erstellt die Retrieval-Strategie, Tool-Anbindungen und Reasoning-Kette.

Ein visueller Drag-and-Drop-Canvas ermöglicht die Komposition eigener Logik mit spezialisierten Integrationen. Dabei lassen sich strikte Regeln (Compliance-Gates, Datenvalidierung, Freigabe-Workflows) mit dynamischem Reasoning für explorative Analysen kombinieren.

Der architektonische Kern: Alle Komponenten werden als ein Gesamtsystem gemeinsam optimiert. Dokumentenverständnis, Retrieval, Reranking, Generierung und Evaluierung stammen nicht von verschiedenen Anbietern, sondern teilen Trainings-Signale. Deshalb erreicht Contextual AIs Grounded Language Model (GLM) 88% auf dem FACTS-Faktentreue-Benchmark und übertrifft Gemini 2.0 Flash (84,6%), Claude 3.5 Sonnet (79,4%) und GPT-4o (78,8%).

Von RAG zu Agenten: Die Architektur dahinter

Traditionelles RAG folgt einer starren Pipeline: Anfrage rein, Dokumente zurück, LLM generiert eine Antwort. Für einfache Frage-Antwort-Szenarien funktioniert das. Sobald die Antwort Reasoning über mehrere Quellen, bedingte Abrufe oder mehrstufige Analysen erfordert, stößt der Ansatz an seine Grenzen.

Aktives Retrieval statt starrer Pipelines

Agent Composer führt ein, was Kiela “RAG 2.0” nennt. Statt einmal abzurufen und auf das Beste zu hoffen, entscheiden Agenten dynamisch:

Wann abrufen: Eine einfache Faktenfrage löst möglicherweise gar kein Retrieval aus. Eine komplexe Fehleranalyse triggert mehrere Retrieval-Runden über Sensor-Logs, Wartungsprotokolle und Engineering-Specs.
Was abrufen: Das System routet Anfragen an die richtigen Datenquellen, ob Vektorspeicher, SQL-Datenbank, Websuche oder eigene API-Endpunkte.
Ob korrigiert werden muss: Wenn abgerufene Dokumente die Frage nicht beantworten, formuliert der Agent die Anfrage um und versucht es erneut, statt eine Antwort zu halluzinieren.

Das Grounded Language Model

Das GLM, aufgebaut auf Meta Llama 3.3, ist speziell darauf trainiert, abgerufenen Kontext gegenüber parametrischem Wissen zu bevorzugen. Bei der Antwortgenerierung liefert es Inline-Attributionen, die genau angeben, welche Quelldokumente jede Aussage stützen. Das ist keine nachträglich aufgesetzte Zitierschicht. Das Grounding-Verhalten ist durch gemeinsames Training direkt in die Modellgewichte eingebrannt.

Auf dem RAG-QA Arena Benchmark erreicht der vollständige Contextual-AI-Stack 71,2%, eine Verbesserung von 5,4% gegenüber dem nächstbesten System (Cohere + Claude 3.5 Sonnet mit 66,8%). Beim Dokumentenverständnis (OmniDocBench) kommt er auf 87,0 und übertrifft LlamaParse Premium um 4,6%.

Hybrides Agentenverhalten

Die meisten Agenten-Frameworks erzwingen eine Wahl: deterministische Workflows oder vollautonomes Reasoning. Agent Composer kombiniert beides. Compliance-Prüfungen, Datenvalidierung und Freigabe-Gates folgen strikten Regeln. Explorative Analyse, dokumentenübergreifendes Reasoning und Hypothesengenerierung nutzen dynamische Planung. Dieser hybride Ansatz ist besonders in regulierten Branchen relevant, wo man einem Agenten kein Freestyle-Compliance-Audit erlauben kann, aber kreatives Reasoning bei der Fehleranalyse durchaus erwünscht ist. Für DACH-Unternehmen, die unter dem EU AI Act operieren, ist diese Kombination aus Kontrollierbarkeit und Flexibilität besonders wertvoll.

Produktionszahlen aus der Praxis

Benchmarks sind das eine. Echte Deployments das andere. Hier die konkreten Ergebnisse aus dem Produktivbetrieb.

Qualcomm: Tausende Ingenieure, Millionen Seiten

Qualcomm setzt Contextual AI in der Customer-Engineering-Organisation ein. Das System verarbeitet Millionen Seiten multimodaler Inhalte (PDFs, HTML, Excel) und bearbeitet zehntausende jährliche Support-Fälle. Neue Dokumentation steht innerhalb von 24 Stunden nach Veröffentlichung zur Verfügung. Yogi Chiniga, VP of Engineering bei Qualcomm, beschrieb die Herausforderung als etwas, das “mehr als einen einfachen KI-Assistenten” erfordert.

Fertigung: Von 8 Stunden auf 20 Minuten

Ein Fertigungsunternehmen nutzt Agent Composer für die Fehlerursachenanalyse. Vorher: Ingenieure parsten manuell Sensordaten, korrelierten Logs über Systeme hinweg und diagnostizierten Ausfälle in einem Prozess, der rund 8 Stunden dauerte. Nachher: Der Agent übernimmt Sensordaten-Parsing, Log-Korrelation und Fehlerdiagnose in 20 Minuten. Eine Reduktion der Diagnosezeit um 96%.

Raketenantrieb: Wenn es wirklich Raketenwissenschaft ist

Contextual AIs Referenz-Anwendungsfall für die Luft- und Raumfahrt zeigt, was bei technisch anspruchsvollen Workflows möglich ist:

Aufgabe	Vorher	Nachher
Test-Telemetrieanalyse	4 Stunden	20 Minuten
Technische Fragen über Engineering-Docs	4 Stunden	10 Minuten
Test-Code-Erstellung	4-8 Stunden	30-60 Minuten
Test Readiness Review Paket	8-10 Stunden	1-2 Stunden

Advantest, ein großer Hersteller von Testequipment, hat Agent Composer bereits bei mehreren Teams und ausgewählten Endkunden für die Testcode-Generierung im Einsatz.

Vergleich mit dem Eigenbau-Ansatz

Die naheliegende Frage: Warum nicht LangChain, LlamaIndex oder ein anderes Open-Source-Framework nehmen und dasselbe selbst bauen?

Kann man. Viele Teams versuchen es. Die meisten bleiben im Stadium “beeindruckende Demo, unzuverlässig in Produktion” stecken. Der Unterschied liegt an drei Punkten:

Gemeinsame Optimierung vs. Komponentenmontage. Bei LangChain oder LlamaIndex wählt man Retriever, Reranker, LLM und Generierungsstrategie von verschiedenen Anbietern. Jede Komponente ist isoliert optimiert. Agent Composer optimiert die gesamte Pipeline end-to-end, weshalb die Faktentreue-Werte Systeme schlagen, die individuell stärkere Einzelkomponenten verwenden.

Enterprise-Readiness vs. Engineering-Aufwand. Agent Composer kommt mit SOC2 Type II, HIPAA-Compliance, SAML/SSO, rollenbasierter Zugriffskontrolle und VPC-Deployment. Vergleichbare Sicherheits- und Compliance-Infrastruktur auf ein Open-Source-Framework aufzubauen, kostet Monate an Engineering-Zeit. Für DACH-Unternehmen mit DSGVO-Anforderungen und den neuen Pflichten unter dem EU AI Act ist diese eingebaute Compliance-Infrastruktur ein erheblicher Vorteil.

Domain-Engineering vs. KI-Engineering. LangChain und LlamaIndex richten sich an ML-Engineers, die in Embeddings und Prompt-Templates denken. Agent Composer richtet sich an Domain-Experten: Halbleiter-Designer, Luft- und Raumfahrt-Ingenieure, Chemiker, die das Problemfeld kennen, aber keine Vektor-Datenbanken verstehen müssen, um einen Agenten zu bauen.

Das Preismodell spiegelt diese Positionierung wider. Die Self-Service-Stufe startet mit 25 Dollar Startguthaben und nutzungsbasierter Abrechnung: 3 Dollar pro 1.000 Seiten für Text-Parsing, 0,05 Dollar pro Million Tokens für Reranking und 3/15 Dollar pro Million Input-/Output-Tokens für die Generierung. Enterprise-Preise gibt es auf Anfrage.

Was das für Enterprise-KI-Teams bedeutet

Contextual AIs These: Die Zukunft der Enterprise-KI liegt nicht in Allzweck-Chatbots, sondern in spezialisierten Agenten, die Experten-Wissensarbeit automatisieren. Agent Composer ist die erste Produktionsplattform vom Team, das die zugrunde liegende Retrieval-Technik erfunden hat, und die frühen Ergebnisse sprechen dafür, dass der Ansatz funktioniert.

Wer RAG-Pipelines baut, die mehr als einfache Frage-Antwort-Szenarien abdecken sollen, oder dessen Ingenieure Stunden mit Analysen verbringen, die vorhersehbaren Mustern folgen, sollte Agent Composer evaluieren. Die 25 Dollar Startguthaben machen den Einstieg risikoarm. Die eigentliche Frage ist, ob der gemeinsam optimierte Ansatz genug Genauigkeitsvorteil gegenüber Open-Source-Alternativen bietet, um die Plattformbindung zu rechtfertigen.

Häufig gestellte Fragen

Was ist Contextual AI Agent Composer?

Agent Composer ist eine Enterprise-Plattform von Contextual AI, die RAG-Pipelines in produktionsreife KI-Agenten verwandelt. Sie bietet vorgefertigte Templates, einen Natural-Language-Builder und einen visuellen Canvas zur Erstellung von Agenten, die wissensintensive Aufgaben wie Fehleranalyse, Compliance-Prüfung und technische Recherche automatisieren.

Wer hat Contextual AI gegründet und was ist die Verbindung zu RAG?

Contextual AI wurde von Douwe Kiela und Amanpreet Singh gegründet, beide ehemalige Forscher bei Meta AI (FAIR). Kiela leitete das Team, das 2020 das originale RAG-Paper veröffentlichte. Das Unternehmen hat insgesamt rund 100 Millionen Dollar an Finanzierung erhalten.

Wie unterscheidet sich Agent Composer von LangChain und LlamaIndex?

Im Gegensatz zu LangChain und LlamaIndex, bei denen man Komponenten verschiedener Anbieter zusammensetzt, optimiert Agent Composer alle Pipeline-Komponenten gemeinsam als ein System. Diese gemeinsame Optimierung erzielt höhere Faktentreue-Werte (88% auf dem FACTS-Benchmark). Zudem bietet es Enterprise-Features wie SOC2 Type II, HIPAA-Compliance und VPC-Deployment ab Werk.

Welche Ergebnisse liefert Agent Composer in der Praxis?

Produktiv-Deployments zeigen deutliche Zeiteinsparungen: Ein Fertigungsunternehmen reduzierte die Fehleranalyse von 8 Stunden auf 20 Minuten, ein Logistikdienstleister erreichte 60x schnellere Problemlösung, und Qualcomm setzt die Plattform bei tausenden Ingenieuren für zehntausende jährliche Support-Fälle ein.

Ist Agent Composer DSGVO-konform einsetzbar?

Agent Composer bietet SOC2 Type II, HIPAA-Compliance, SAML/SSO und rollenbasierte Zugriffskontrolle. Für den Enterprise-Tarif sind VPC-Deployments verfügbar, bei denen die Daten in der eigenen Infrastruktur bleiben. Unternehmen unter DSGVO und EU AI Act sollten die VPC-Option für maximale Datenkontrolle in Betracht ziehen.

Was Agent Composer konkret leistet#

Von RAG zu Agenten: Die Architektur dahinter#

Aktives Retrieval statt starrer Pipelines#

Das Grounded Language Model#

Hybrides Agentenverhalten#

Produktionszahlen aus der Praxis#

Qualcomm: Tausende Ingenieure, Millionen Seiten#

Fertigung: Von 8 Stunden auf 20 Minuten#

Raketenantrieb: Wenn es wirklich Raketenwissenschaft ist#

Vergleich mit dem Eigenbau-Ansatz#

Was das für Enterprise-KI-Teams bedeutet#

Häufig gestellte Fragen#

Was ist Contextual AI Agent Composer?#

Wer hat Contextual AI gegründet und was ist die Verbindung zu RAG?#

Wie unterscheidet sich Agent Composer von LangChain und LlamaIndex?#

Welche Ergebnisse liefert Agent Composer in der Praxis?#

Ist Agent Composer DSGVO-konform einsetzbar?#