KI-Agenten für DevOps und SRE: Von Incident Response bis Infrastructure as Agent

Foto von Taylor Vick auf Unsplash Source

KI-Agenten im DevOps-Bereich sind kein Experiment mehr. Microsoft betreibt über 1.300 Azure SRE Agents im eigenen Produktivbetrieb, die monatlich mehr als 35.000 Incidents bearbeiten und über 20.000 Ingenieurstunden einsparen. PagerDutys KI-Agent-Suite löst Incidents 50% schneller. Datadog Bits AI SRE ist als autonomer On-Call-Teamkollege allgemein verfügbar. Der Wandel von “KI, die vorschlägt” zu “KI, die handelt” hat in der Operations-Welt bereits stattgefunden. Teams, die das ignorieren, fallen bei den Reliability-Metriken zurück.

Hier geht es nicht um Chatbots, die Logs zusammenfassen. Diese Agenten überwachen Systemzustände, korrelieren Alerts mit Code-Änderungen, führen Runbooks aus und beheben Probleme, während Menschen bei den wirklich wichtigen Entscheidungen das letzte Wort behalten. Wer 2026 Infrastruktur baut oder verwaltet, muss verstehen, was diese Tools konkret leisten und wo sie hingehören.

Wie sich KI-Agenten von klassischer DevOps-Automatisierung unterscheiden

Klassische DevOps-Automatisierung folgt einem einfachen Muster: Wenn X passiert, mache Y. Ein PagerDuty-Alert triggert ein Runbook. Ein Terraform-Plan wendet eine Konfiguration an. Ein Cron-Job prüft den Health-Status. Jede Aktion ist vordefiniert, und für jeden Sonderfall muss ein Mensch eine neue Regel schreiben.

KI-Agenten durchbrechen dieses Muster, indem sie eine Reasoning-Schicht zwischen Signal und Aktion setzen. Wenn ein Agent einen Alert erhält, führt er nicht einfach ein Skript aus. Er liest Logs, prüft aktuelle Deployments, korreliert Metriken über Services hinweg und entscheidet, was die wahrscheinlichste Ursache ist, bevor er handelt. Wenn seine erste Hypothese scheitert, versucht er einen anderen Ansatz.

Das ReAct-Muster im Operations-Betrieb

Die Kernarchitektur hinter den meisten DevOps-KI-Agenten ist das ReAct-Muster (Reason and Act). Der Agent empfängt eine Beobachtung (ein Alert, eine Metrik-Anomalie), schlussfolgert, was passieren könnte, führt eine Aktion aus (Logs abfragen, Deployment-Timeline prüfen), beobachtet das Ergebnis und wiederholt den Vorgang, bis er eine Lösung findet oder an einen Menschen eskaliert.

Dasselbe Muster steckt hinter Coding-Agenten wie Gemini CLI, nur dass der Aktionsraum hier die Produktionsinfrastruktur ist statt eines Code-Editors. Das erhöht den Einsatz deutlich.

Was Agenten können, was Skripte nicht können

Ein Bash-Skript, das einen Service neustartet, wenn der Speicher 90% überschreitet, startet ihn jedes Mal neu, auch wenn das eigentliche Problem ein Memory Leak in einem Deployment ist, das vor 20 Minuten live ging. Ein KI-Agent korreliert den Speicheranstieg mit dem Deployment, prüft, ob andere Instanzen dasselbe Muster zeigen, sieht sich den Commit-Diff auf speicherrelevante Änderungen an und entscheidet dann, ob er das Deployment zurückrollt oder den Service neustartet. Dieses kontextbezogene Reasoning unterscheidet einen Agenten von Automatisierung.

Die wichtigsten KI-SRE-Plattformen 2026

Der Markt hat sich auf einige zentrale Plattformen konsolidiert, die jeweils unterschiedliche Ansätze für agentenbasierte Operations verfolgen.

Azure SRE Agent

Microsofts Azure SRE Agent hat im März 2026 die General Availability erreicht und ist derzeit der funktionsreichste Cloud-native SRE-Agent. Er verwaltet alle Azure-Dienste über die Azure CLI und REST-APIs: Compute (VMs, App Service, Container Apps, AKS, Functions), Storage, Networking, Datenbanken und Monitoring.

Was den Azure SRE Agent besonders macht, ist sein “Deep Context”-Feature. Beim Onboarding verbindet er Code-Repositories, Logs, vergangene Incidents, Azure-Ressourcen und Wissensdateien zu einem einzigen Kontext-Graphen. Der Agent hat ein persistentes Gedächtnis über Untersuchungen hinweg und führt im Hintergrund Intelligence-Analysen durch, auch wenn niemand Fragen stellt. So baut er mit der Zeit Expertise über die spezifische Umgebung auf.

Besonders interessant ist das Erweiterungsmodell: Azure SRE Agent unterstützt MCP-Konnektoren und eigene Python-Tools, die beliebige HTTP-APIs aufrufen können. So orchestriert er Workflows über Azure, den Monitoring-Stack, das Ticketing-System und interne APIs hinweg.

PagerDutys KI-Agent-Suite

PagerDuty verfolgt einen Multi-Agent-Ansatz mit spezialisierten Agenten für verschiedene Phasen des Incident-Managements:

SRE Agent übernimmt Triage und Remediation. Er analysiert vergangene Incidents, schlägt Runbooks vor und kann automatisierte Fixes innerhalb definierter Policy-Guardrails ausführen. Während eines Incidents zieht er Logs von Datadog, Deployment-History aus der CI/CD-Pipeline und ähnliche vergangene Incidents zusammen, um Respondern in Sekunden statt Minuten eine Diagnose zu liefern.

Scribe Agent transkribiert Zoom-Calls und Slack-Konversationen während Incidents und erstellt strukturierte Zusammenfassungen und Status-Updates. Das löst das Postmortem-Problem: Statt eine Timeline aus dem Gedächtnis zu rekonstruieren, erfasst der Agent alles in Echtzeit.

Shift Agent erkennt und löst On-Call-Scheduling-Konflikte automatisch. Das klingt trivial, bis man bedenkt, wie viele P1-Incidents unbeantwortet bleiben, weil die On-Call-Person im Urlaub war und niemand den Plan aktualisiert hat.

Datadog Bits AI SRE

Datadog Bits AI SRE ist ein autonomer KI-Teamkollege, der permanent im Bereitschaftsdienst ist. Er ist speziell für komplexe Multi-Service-Umgebungen gebaut, in denen ein einzelner Alert dutzende beitragende Faktoren haben kann.

Bits AI SRE kartiert die Umgebung kontinuierlich: Service-Abhängigkeiten aus Kubernetes-Manifesten, Deployment-History aus CI/CD-Pipelines, Metrik-Baselines aus Datadog und Prometheus, und Teamwissen aus Slack-Konversationen, Runbooks und Postmortem-Dokumenten. Wenn ein Alert feuert, versteht der Agent das Normalverhalten des Systems bereits und kann Abweichungen schneller erkennen als ein Mensch, der um 3 Uhr morgens geweckt wird.

Harness AI SRE

Harness AI SRE führte im Januar 2026 den “Human-Aware Change Agent” ein, ein KI-System, das menschliche Einsichten als erstklassige operative Daten behandelt. Es nutzt AI Scribe, um Team-Konversationen in Slack, Teams und Zoom zu verfolgen, operative Signale herauszufiltern und in Untersuchungsaktionen umzuwandeln.

Der Ansatz unterscheidet sich von reiner Automatisierung: Harness korreliert menschliche Beobachtungen (“Ich glaube, es hat nach dem Merge des Feature-Flag-Changes angefangen”) mit Systemdaten (Deployment-Zeitstempel, Metrik-Verschiebungen), um ein reichhaltigeres Bild davon zu erstellen, was passiert ist. Besonders stark ist die Verbindung von CI/CD-Pipeline-Daten mit Produktions-Incidents, da Harness bereits die Deployment-Pipeline steuert.

Infrastructure as Agent: Über Incident Response hinaus

Der Incident-Response-Use-Case bekommt die meiste Aufmerksamkeit, aber KI-Agenten transformieren drei weitere Bereiche der Operations-Arbeit.

Autonome Kostenoptimierung

CAST AI betreibt autonome Kubernetes-Optimierung, die Cloud-Kosten um 50-70% senkt, durch intelligentes Scaling und Bin Packing. Der Agent analysiert kontinuierlich Workload-Muster, passt Instance-Größen an und verschiebt Workloads zwischen Node Pools, ohne menschliches Eingreifen. Das ist keine Empfehlungs-Engine, die Berichte generiert, die niemand liest; der Agent nimmt die Änderungen direkt vor, mit Rollback-Fähigkeit bei Performance-Verschlechterung.

Für DACH-Unternehmen ist das besonders relevant: Laut einer Bitkom-Studie geben deutsche Unternehmen durchschnittlich 30% mehr für Cloud-Infrastruktur aus als nötig. Ein autonomer Kostenoptimierer kann hier signifikante Einsparungen erzielen, ohne dass das SRE-Team manuell FinOps betreiben muss.

Selbstheilende Infrastruktur

Das Konzept “Infrastructure as Agent” löst in Fachgesprächen zunehmend “Infrastructure as Code” als nächsten Evolutionsschritt ab. Statt dass Menschen Terraform-Pläne schreiben und anwenden, interagieren Agenten direkt mit Terraform, Helm oder Kubernetes-Manifesten. Sie stellen sicher, dass Änderungen konsistent, sicher und konform mit organisatorischen Richtlinien sind.

Resolve.ai automatisiert wiederkehrende IT- und Operations-Aufgaben von der Erkennung bis zur Behebung. Es führt Runbooks aus, schließt den Kreislauf bei bekannten Problemen und behält Menschen bei Ermessensentscheidungen am Steuer. Entscheidend: Das System lernt aus jedem Incident, sodass die Lösung bekannter Probleme mit der Zeit schneller und zuverlässiger wird.

Proaktives Reliability Engineering

Der interessanteste Wandel ist der von reaktiv zu proaktiv. Klassisches SRE wartet darauf, dass etwas kaputtgeht. KI-Agenten analysieren Muster über tausende Signale hinweg, um Ausfälle vorherzusagen, bevor sie eintreten. Sowohl Datadog Bits AI SRE als auch Azure SRE Agent führen kontinuierlich Hintergrundanalysen durch und identifizieren Drift bei Metriken, Konfigurationsanomalien und Ressourcennutzungstrends, die mit vergangenen Incidents korrelieren.

Daher stammt auch die “20.000 Ingenieurstunden pro Monat”-Zahl von Microsoft. Der größte Teil dieser Zeit ist nicht Incident Response, sondern die proaktive Investigationsarbeit, für die Menschen selten Kapazitäten haben.

KI-Agenten im eigenen Operations-Stack einsetzen

Der Einstieg in KI-Agenten für DevOps ist keine Alles-oder-nichts-Entscheidung. Teams, die erfolgreich sind, gehen schrittweise vor.

Mit Read-Only-Agenten starten

Zuerst einen Agenten deployen, der Logs abfragen, Metriken prüfen und Incidents analysieren kann, aber keine Aktionen ausführen darf. Das baut Vertrauen auf und ermöglicht die Bewertung der Reasoning-Qualität ohne Risiko. Azure SRE Agent und PagerDuty SRE Agent unterstützen beide Read-Only-Modi.

Action-Guardrails definieren

Bevor Schreibzugriff gewährt wird, muss definiert werden, was der Agent tun darf. Die meisten Plattformen unterstützen Policy-Guardrails: Der Agent darf einen Pod neustarten, aber keinen Namespace löschen. Er darf hoch-, aber nicht unter ein Minimum herunterskalieren. Er darf ein Deployment zurückrollen, aber keine Datenbankschemas ändern. Diese Guardrails sind der “Human in the Loop” für den Operations-Betrieb. Gerade im DACH-Raum, wo die DSGVO strenge Anforderungen an automatisierte Entscheidungen stellt, sind dokumentierte Guardrails und Audit-Trails Pflicht.

Kontextquellen anbinden

Der größte Qualitätsfaktor für Agenten ist Kontext. Ein Agent, der nur Metriken sieht, wird nie so gut sein wie einer, der auch Deployment-History, Code-Änderungen, vergangene Incident-Reports und Team-Konversationen kennt. Es lohnt sich, Zeit in die Anbindung von Monitoring-Tools, CI/CD-Pipelines, Code-Repos und Kommunikationskanälen an den Agenten zu investieren. Azure SRE Agents Deep Context und Harness’ Human-Aware Change Agent betonen dieses Muster.

MTTR messen, nicht nur Alerts

Die entscheidende Metrik ist die Mean Time to Resolution, nicht wie viele Alerts der Agent verarbeitet hat. MTTR vor und nach dem Agent-Deployment tracken, aufgeschlüsselt nach Incident-Schweregrad. Teams mit KI-SRE-Agenten berichten durchgängig über MTTR-Reduktionen von 40-70%, mit den größten Gewinnen bei P2- und P3-Incidents, die zuvor in Warteschlangen lagen, während sich Engineers auf P1s konzentrierten.

Was als Nächstes kommt: Multi-Agent-Operations

Die aktuelle Generation von KI-SRE-Tools sind Einzweck-Agenten. Der nächste Schritt sind Multi-Agent-Systeme, in denen spezialisierte Agenten zusammenarbeiten: einer fürs Scaling, einer für Security, ein dritter für Kostenoptimierung und ein Koordinator-Agent, der die Prioritäten über alle hinweg verwaltet.

Diese Architektur zeichnet sich bereits ab. Azure SRE Agents Plugin-Marketplace ermöglicht die Installation vorgefertigter Capabilities, die jeweils als spezialisierte Sub-Agenten funktionieren. Die Harness-Plattform koordiniert Incident-Agenten mit Deployment-Agenten und Security-Agenten. Die Richtung ist klar: Bis Ende 2026 werden Produktionsumgebungen mit mehreren KI-Agenten arbeiten, die jeweils für eine andere operative Domäne zuständig sind und über standardisierte Protokolle wie MCP kommunizieren.

Die Teams, die am meisten profitieren, sind diejenigen, die jetzt mit einem einzelnen Use Case beginnen, Vertrauen in die Tools aufbauen und von dort aus erweitern. Der schlechteste Ansatz ist Abwarten, bis die Technologie “reif” ist, während die Konkurrenz Incidents bereits 50% schneller löst.

Häufig gestellte Fragen

Was ist ein KI-SRE-Agent?

Ein KI-SRE-Agent ist ein autonomes Softwaresystem, das die Infrastruktur-Gesundheit überwacht, Incidents durch Korrelation von Logs, Metriken und Deployment-History analysiert und Remediation-Aktionen wie Service-Neustarts, Deployment-Rollbacks oder Ressourcen-Skalierung durchführen kann. Im Gegensatz zu traditionellen Automatisierungsskripten analysiert ein KI-SRE-Agent den Kontext eines Problems, bevor er handelt.

Wie stark reduziert ein KI-SRE-Agent die Incident-Response-Zeit?

Organisationen mit KI-SRE-Agenten berichten über MTTR-Reduktionen (Mean Time to Resolution) von 40-70%. PagerDuty meldet Incidents, die 50% schneller gelöst werden. Microsoft spart über 20.000 Ingenieurstunden pro Monat mit über 1.300 eingesetzten Azure SRE Agents.

Welche KI-SRE-Tools gibt es 2026?

Die wichtigsten KI-SRE-Plattformen 2026 sind Azure SRE Agent (GA März 2026), PagerDutys KI-Agent-Suite (SRE Agent, Scribe Agent, Shift Agent), Datadog Bits AI SRE, Harness AI SRE mit dem Human-Aware Change Agent, Resolve.ai und CAST AI für autonome Kubernetes-Optimierung. Jede verfolgt einen anderen Ansatz für agentenbasierte Operations.

Ersetzt Infrastructure as Agent das Konzept Infrastructure as Code?

Infrastructure as Agent erweitert Infrastructure as Code, statt es zu ersetzen. Anstatt dass Menschen Terraform-Pläne manuell schreiben, interagieren KI-Agenten direkt mit Terraform, Helm und Kubernetes-Manifesten. Die Infrastructure-as-Code-Definitionen existieren weiterhin, aber Agenten verwalten die Ausführung, Drift-Erkennung und Remediation. Der Agent stellt sicher, dass Änderungen konsistent, sicher und richtlinienkonform sind.

Welche DSGVO-Aspekte sind beim Einsatz von KI-SRE-Agenten relevant?

KI-SRE-Agenten verarbeiten potenziell personenbezogene Daten in Logs und Monitoring-Daten. DACH-Unternehmen müssen sicherstellen, dass die Agenten DSGVO-konform arbeiten: Datenverarbeitungsverträge mit den Plattformanbietern, dokumentierte Guardrails und Audit-Trails für automatisierte Aktionen, und klare Regelungen zur Datenspeicherung und -löschung. Azure SRE Agent und PagerDuty bieten beide Compliance-Features für den europäischen Markt.

Wie sich KI-Agenten von klassischer DevOps-Automatisierung unterscheiden#

Das ReAct-Muster im Operations-Betrieb#

Was Agenten können, was Skripte nicht können#

Die wichtigsten KI-SRE-Plattformen 2026#

Azure SRE Agent#

PagerDutys KI-Agent-Suite#

Datadog Bits AI SRE#

Harness AI SRE#

Infrastructure as Agent: Über Incident Response hinaus#

Autonome Kostenoptimierung#

Selbstheilende Infrastruktur#

Proaktives Reliability Engineering#

KI-Agenten im eigenen Operations-Stack einsetzen#

Mit Read-Only-Agenten starten#

Action-Guardrails definieren#

Kontextquellen anbinden#

MTTR messen, nicht nur Alerts#

Was als Nächstes kommt: Multi-Agent-Operations#

Häufig gestellte Fragen#

Was ist ein KI-SRE-Agent?#

Wie stark reduziert ein KI-SRE-Agent die Incident-Response-Zeit?#

Welche KI-SRE-Tools gibt es 2026?#

Ersetzt Infrastructure as Agent das Konzept Infrastructure as Code?#

Welche DSGVO-Aspekte sind beim Einsatz von KI-SRE-Agenten relevant?#