Ein KI-Agent mit 95% Trefferquote klingt solide. Werden zehn aufeinanderfolgende Aufrufe verkettet, um einen komplexen Vorfall zu lösen, sinkt die Gesamtgenauigkeit auf rund 60%. Dynatrace-CTO Bernd Greifeneder hat diese Rechnung bei Perform 2026 vorgerechnet. Sie zeigt das Kernproblem autonomer KI in Produktion: Probabilistische Modelle akkumulieren Fehler über Schritte hinweg, und klassisches Application Performance Monitoring kann das nicht erkennen.

Deshalb verändert sich die Rolle von Observability grundlegend. Statt passiver Überwachung wird sie zur Control Plane: Die Schicht, die Agent-Entscheidungen auf deterministische Daten stützt, Governance-Grenzen durchsetzt und eingreift, bevor kaskadierende Fehler beim Kunden ankommen. Der Markt für Agentic AI Monitoring wächst entsprechend von 550 Millionen Dollar (2025) auf prognostizierte 2,05 Milliarden Dollar bis 2030, bei einer jährlichen Wachstumsrate von 30%.

Weiterlesen: Was sind KI-Agenten? Ein praktischer Leitfaden für Entscheider

Warum klassisches APM bei Agenten versagt

Traditionelles APM beobachtet Requests, die durch Services fließen. Es misst Latenz, Fehlerquoten und Durchsatz. Das funktioniert, weil jeder Service bei gleicher Eingabe das Gleiche tut. KI-Agenten brechen jede dieser Annahmen.

Nicht-deterministische Ausführungspfade. Dieselbe Eingabe erzeugt unterschiedliche Tool-Aufrufe, Reasoning-Ketten und Ergebnisse. Ein klassischer Trace zeigt einen festen Call-Graph. Ein Agent-Trace ist ein Baum, der sich bei jedem Durchlauf anders verzweigt.

Mehrstufiges Reasoning mit Fehlerakkumulation. Ein Agent, der ein Thema recherchiert, ruft eine Such-API auf, liest drei Dokumente, verwirft zwei als irrelevant und erstellt einen Bericht aus dem dritten. Eine falsche Entscheidung bei Schritt zwei (das richtige Dokument verworfen) verursacht eine falsche Antwort bei Schritt fünf. APM sieht fünf erfolgreiche API-Aufrufe. Agent-Observability muss die Begründung hinter jeder Entscheidung nachvollziehen.

Tool-Orchestrierung mit Seiteneffekten. Agenten rufen externe Tools auf: Datenbanken, APIs, Browser, Code-Interpreter. Jeder Tool-Aufruf kann Zustand verändern. Ein Kundenservice-Agent, der eine Rückerstattung ausführt, kann sie nicht rückgängig machen. Man muss sehen, was der Agent entschieden hat, warum, und ob er den richtigen Kontext hatte, bevor die Aktion erfolgte.

Token-Ökonomie. Jeder LLM-Aufruf kostet Geld. Ein Agent in einer Reasoning-Schleife kann 50 Dollar an Tokens verbrennen, bevor jemand es bemerkt. Klassisches APM erfasst Compute-Kosten auf Infrastrukturebene. Agent-Observability erfasst Token-Verbrauch pro Entscheidungsschritt, pro Modell, pro Agent.

LangChains State of Agent Engineering Umfrage liefert konkrete Zahlen: 89% der Teams haben Observability, aber nur 52% führen Evaluierungen durch, die tatsächlich prüfen, ob die Agenten-Ausgabe korrekt war. Teams beobachten ihre Agenten, ohne deren Arbeit zu bewerten.

Weiterlesen: State of Agent Engineering 2026: Was 1.300 Teams wirklich berichten

Dynatrace setzt auf Determinismus vor Autonomie

Dynatrace positioniert sich am aggressivsten in diesem Bereich. Aus Observability wird bei ihnen aktive Governance. Ihr 2026 Pulse of Agentic AI Report zeigt: 52% der befragten Organisationen nennen Sicherheits- und Datenschutzbedenken als größte Hürde, 51% kämpfen mit technischen Herausforderungen, insbesondere mangelnder Sichtbarkeit in Agent-Verhalten.

Das erklärt, warum 69% aller Agenten-Entscheidungen noch von Menschen geprüft werden: Organisationen vertrauen ihren Agenten nicht genug, weil sie nicht ausreichend nachvollziehen können, was die Agenten tun.

Dynatrace Intelligence: Drei Schichten deterministischer Absicherung

Bei Perform 2026 stellte Dynatrace eine Architektur vor, die deterministische Analyse vor jeden generativen KI-Einsatz stellt:

  1. Root Cause Agent analysiert kausale Abhängigkeiten über den Smartscape-Topologie-Graphen mit Millionen von Entitätsbeziehungen. Kein LLM beteiligt. Reine deterministische Graph-Traversierung.

  2. Analytics Engine transformiert Daten im Grail Data Lakehouse in kontextreiche, KI-optimierte Informationen. Strukturierte Daten statt probabilistischer Inferenz.

  3. Forecasting Agent führt prädiktive Analysen über Millionen von Metriken gleichzeitig durch, basierend auf Davis AI, der deterministischen KI-Engine.

Erst nach diesen drei Schichten kommt ein generatives Modell zum Einsatz. Laut Dynatrace-Benchmarks: 12x höhere Erfolgsquoten als reine LLM-Ansätze, 3x schnellere Lösungszeiten und 50% weniger Token-Kosten.

Greifeneder brachte den Zusammenhang auf den Punkt: “Je besser die Informationen strukturiert sind, je mehr Kontext man hat, je mehr kausale Informationen man der KI liefert, desto besser das Ergebnis.”

Praxisbeispiel: United Airlines und CareSource

United Airlines hat 800 Anwendungen auf Dynatrace konsolidiert. Ergebnis: Die Incident Response, die früher “bis zu 250 Personen” involvierte, dauert jetzt Minuten. Zwei Jahre in Folge erzielten sie die besten operativen Ergebnisse ihrer Geschichte und den Spitzenplatz für Pünktlichkeit in der Branche. Bei CareSource brachte die Integration von Dynatrace mit ServiceNow eine 45% kürzere mittlere Lösungszeit und 35% mehr Self-Healing durch geschlossene Incident-Management-Prozesse.

Für DACH-Unternehmen ist der Dynatrace-Ansatz besonders relevant: Das Unternehmen hat seinen Hauptsitz in Linz und versteht europäische Compliance-Anforderungen aus erster Hand. Die DSGVO verlangt nachvollziehbare automatisierte Entscheidungen nach Art. 22. Eine Observability-Control-Plane, die jeden Agent-Schritt protokolliert, liefert genau diese Nachvollziehbarkeit.

OpenTelemetry GenAI: Der offene Standard

Parallel zum proprietären Dynatrace-Ansatz etabliert sich OpenTelemetry als herstellerneutraler Standard für Agent-Tracing.

Die GenAI-Arbeitsgruppe hat Semantic Conventions speziell für Agenten-Systeme definiert:

create_agent Spans erfassen die Agent-Initialisierung mit Attributen wie gen_ai.agent.name, gen_ai.agent.id und gen_ai.request.model.

invoke_agent Spans tracen jede Agent-Invocation mit Konversations-IDs, Ein-/Ausgabenachrichten, Tool-Definitionen, System-Instruktionen und Token-Verbrauch.

execute_tool Spans verknüpfen jeden externen Tool-Aufruf mit der Agent-Entscheidung, die ihn ausgelöst hat.

Der praktische Nutzen: Ein Agent, der mit LangGraph gebaut und über Langfuse instrumentiert wird, kann in Datadog analysiert werden, alles mit demselben Attribut-Schema. Laut Elastics Observability-Trendbericht 2026 nutzen 85% der Organisationen bereits GenAI für Observability, und 89% der Produktionsnutzer bewerten die Einhaltung vollständiger OpenTelemetry-Spezifikationen als “sehr wichtig” oder höher.

Weiterlesen: KI-Agent-Frameworks im Vergleich: LangGraph, CrewAI, AutoGen

Die Tool-Landschaft: Wer überwacht die Agenten?

Der Markt teilt sich in drei Segmente: KI-native Tools speziell für LLM-Anwendungen, klassische APM-Anbieter mit Agent-Erweiterungen und Open-Source-Frameworks.

KI-nativ: Langfuse, LangSmith, Arize Phoenix

Langfuse ist das am weitesten verbreitete Open-Source-Tool für LLM-Observability. Es bietet Tracing, Evaluierungen, Prompt-Management und Kostenerfassung. Self-Hosted-Deployment gibt Teams volle Kontrolle über den Datenstandort, was für Unternehmen in der EU mit DSGVO-Anforderungen entscheidend ist.

LangSmith integriert sich eng in LangChain und LangGraph. Die Kombination aus Tracing und datenbasierter Evaluierung macht es zum Standard für Teams in diesem Ökosystem. Die Einschränkung: Außerhalb des LangChain-Stacks sinkt der Mehrwert deutlich.

Arize Phoenix fokussiert auf tiefgehende Agent-Evaluierung mit vollständigen Multi-Step-Traces. Open-Source und selbst gehostet, mit stärkerem Fokus auf die Bewertung von Agent-Entscheidungsketten als Langfuse.

Klassisches APM: Datadog, New Relic, Elastic

Datadog LLM Observability unterstützt nativ die OpenTelemetry GenAI Semantic Conventions. Für Teams, die bereits Datadog einsetzen, ist das die natürliche Wahl: Service Maps über vernetzte Agenten, Token-Kostenerfassung und Integration mit bestehender Infrastrukturüberwachung.

New Relic AI Monitoring korreliert LLM-Aufruf-Latenz mit den Datenbankabfragen, die ein Agent auslöst, und den Infrastrukturmetriken des Hosts, auf dem alles läuft. Alles in einer Timeline.

Elastic Observability setzt auf die eigene Such-Expertise für logbasierte Agent-Analyse. Prognose für die nächsten zwei Jahre: 98% aller Organisationen werden GenAI für Observability-Aufgaben nutzen.

Auswahlhilfe

SzenarioEmpfohlenes ToolBegründung
LangChain/LangGraph-StackLangSmithNative Integration, Eval + Tracing
DSGVO-DatenresidenzLangfuse (self-hosted)Volle Datenkontrolle, Open Source
Bereits Datadog/New RelicLLM-Modul ergänzenKein Vendor-Sprawl, Infrastruktur-Korrelation
Tiefe Agent-EvaluierungArize PhoenixMulti-Step-Entscheidungsanalyse
Herstellerneutral, portabelOpenTelemetry + beliebiges BackendStandard Semantic Conventions
Weiterlesen: KI-Agenten testen: Qualitätssicherung nicht-deterministischer Systeme

Von Monitoring zur Control Plane: Was sich ändert

Der Wechsel von “Observability” zu “Control Plane” ist kein Marketing. Er beschreibt eine konkrete Architekturänderung in der Governance autonomer Agenten.

Klassisches Monitoring ist reaktiv: Etwas bricht, ein Alert feuert, ein Mensch untersucht. Die Observability-Control-Plane ist proaktiv: Die Monitoring-Schicht nimmt aktiv an der Agent-Ausführung teil, indem sie Kontext liefert, Grenzen durchsetzt und Eingriffe auslöst.

Drei Funktionen einer Observability-Control-Plane

Kontextuelle Absicherung. Die Observability-Schicht speist Echtzeit-Systemzustand in Agent-Entscheidungen ein. Dynatraces Ansatz ist das klarste Beispiel: Der Root Cause Agent liefert dem LLM deterministische Kausalitätsdaten, bevor es eine Antwort generiert. Ohne diese Grundlage halluziniert das LLM über den Systemzustand. Mit ihr arbeitet es mit Fakten.

Governance-Durchsetzung. Die Control Plane überwacht Agent-Aktionen gegen Richtlinien. Versucht ein Agent eine Aktion außerhalb seines autorisierten Bereichs, kann die Observability-Schicht die Aktion blockieren, den Versuch protokollieren und an einen Menschen eskalieren. Laut Dynatraces Bericht setzen 44% der Organisationen noch auf manuelle Überwachung, was Engpässe erzeugt, die eine Control Plane automatisiert.

Erkennung kaskadierender Fehler. Bei verketteten Agent-Aufrufen wird die Ausgabe jedes Schritts zur Eingabe des nächsten. Die Control Plane verfolgt Konfidenz und Qualität über die gesamte Kette und erkennt, wann Fehlerakkumulation die Gesamterfolgswahrscheinlichkeit unter einen akzeptablen Schwellenwert drückt. Bei Schritt drei eingreifen statt bei Schritt zehn aufräumen.

Der 90-Tage-Implementierungsplan

Dynatraces Bericht skizziert einen phasierten Ansatz, der unabhängig vom Tool-Stack gilt:

Tage 1-30: Governance-Grenzen festlegen und Basis-Instrumentierung einrichten. Definieren, welche Agent-Aktionen menschliche Genehmigung erfordern. Alle LLM-Aufrufe mit OpenTelemetry GenAI Conventions instrumentieren.

Tage 31-60: Human-in-the-Loop-Workflows mit Datenqualitätsprüfungen aufbauen. Observability-Daten nutzen, um zu identifizieren, welche Agent-Entscheidungen zuverlässig genug für Automatisierung sind.

Tage 61-90: Bewährte Use Cases mit schrittweise höherer Autonomie skalieren. Menschliche Checkpoints nur dort entfernen, wo Observability-Daten konsistente Qualität bestätigen.

Das Kernprinzip des Berichts: “Autonomie skaliert nur mit Vertrauen.” Observability ist das, was dieses Vertrauen erzeugt.

Sechs Signale für Agent-Gesundheit

Wer ein Agenten-System heute instrumentiert, sollte diese sechs Signale erfassen, die Agent-Observability von klassischem APM unterscheiden:

  1. Token-Kosten pro Aufgabe. Nicht Gesamtkosten, sondern aufgeschlüsselt nach Agent, Aufgabentyp und Schritt. Ein Coding-Agent, der 0,50 Dollar pro Code Review ausgibt, ist akzeptabel. Derselbe Agent mit 8 Dollar wegen einer Reasoning-Schleife nicht.

  2. Tool-Aufruf-Erfolgsrate. Welcher Anteil externer Tool-Aufrufe gelingt beim ersten Versuch? Wiederholungen akkumulieren Latenz und Kosten. Eine Fehlerquote über 10% deutet meist auf ein Prompt- oder Schema-Problem hin, nicht auf Infrastruktur.

  3. Entscheidungskettenlänge. Wie viele Reasoning-Schritte braucht der Agent pro Aufgabe? Längere Ketten korrelieren mit niedrigerer Genauigkeit (das 95%-auf-60%-Problem). Median und 95. Perzentil tracken.

  4. Halluzinationsrate bei verifizierbaren Aufgaben. Bei Aufgaben, deren korrekte Antwort prüfbar ist (Datenbankabfragen, API-Antworten): Wie oft widerspricht die Agent-Ausgabe den Quelldaten?

  5. Human-Escalation-Rate. Wie oft eskaliert der Agent an einen Menschen? Ein Aufwärtstrend bedeutet mehr Grenzfälle. Ein Abwärtstrend kann verbesserte Fähigkeit oder verringerte Vorsicht bedeuten. Beide Signale erfordern Untersuchung.

  6. Latenz pro Entscheidungsschritt. End-to-End-Latenz reicht nicht. Aufschlüsseln nach Schritt: Liegt es am LLM-Aufruf, am Tool-Aufruf, oder daran, dass der Agent zu viele Optionen durchdenkt?

Häufig gestellte Fragen

Was ist Agentic AI Observability?

Agentic AI Observability ist die Praxis, autonome KI-Agenten in Produktion zu überwachen, indem Reasoning-Schritte, Tool-Aufrufe, Token-Verbrauch, Entscheidungsqualität und Ergebnisse erfasst werden. Anders als klassisches APM, das Request-Response-Muster beobachtet, muss Agent-Observability nicht-deterministische Ausführungspfade, mehrstufige Reasoning-Ketten und akkumulierende Fehlerquoten handhaben. Sie wird zunehmend als Control Plane betrachtet, die Agent-Verhalten aktiv steuert statt nur passiv zu überwachen.

Warum wird Observability als Control Plane für KI-Agenten bezeichnet?

Observability wird zur Control Plane, wenn sie aktiv an der Agent-Ausführung teilnimmt statt nur zuzuschauen. Sie liefert kontextuelle Absicherung (Echtzeit-Systemzustand für Agent-Entscheidungen), setzt Governance durch (blockiert unautorisierte Aktionen) und erkennt kaskadierende Fehler. Dynatrace hat gezeigt, dass ein Agent mit 95% Genauigkeit bei Schritt zehn einer Kette auf 60% fällt. Die Observability-Control-Plane erkennt diese Degradation frühzeitig und greift ein.

Welche Tools gibt es für KI-Agent-Observability?

KI-native Tools sind Langfuse (Open Source, selbst gehostet), LangSmith (optimal für LangChain/LangGraph) und Arize Phoenix (tiefe Agent-Evaluierung). Klassische APM-Anbieter wie Datadog, New Relic und Elastic bieten LLM-Observability-Module. OpenTelemetry GenAI Semantic Conventions liefern einen herstellerneutralen Standard. Enterprise-Plattformen wie Dynatrace Intelligence bieten deterministische Grounding-Schichten, die Observability mit aktiver Agent-Governance kombinieren.

Wie groß ist der Markt für KI-Agent-Observability?

Der Markt für Agentic AI Monitoring und Observability Tools lag 2025 bei 550 Millionen Dollar und soll bis 2030 auf 2,05 Milliarden Dollar wachsen (30% CAGR). Der breitere Observability-Markt wächst von 3,35 Milliarden Dollar (2026) auf 6,93 Milliarden Dollar (2031). Treiber ist, dass 72% der Organisationen 2-10 Agentic-AI-Initiativen betreiben, aber 44% noch auf manuelle Monitoring-Methoden setzen.

Welche Metriken sollte man für KI-Agent-Monitoring erfassen?

Die sechs zentralen Signale sind: Token-Kosten pro Aufgabe (aufgeschlüsselt nach Agent und Schritt), Tool-Aufruf-Erfolgsrate (Erstversuch-Erfolgsquote), Entscheidungskettenlänge (Reasoning-Schritte pro Aufgabe), Halluzinationsrate bei verifizierbaren Aufgaben, Human-Escalation-Rate (Trendrichtung wichtiger als absoluter Wert) und Latenz pro Entscheidungsschritt (um Engpässe bei LLM-Aufrufen, Tool-Aufrufen oder Reasoning zu identifizieren).

Cover-Bild von Thomas Jensen auf Unsplash Source