Cohesity und ServiceNow: Die erste Undo-Taste für KI-Agent-Fehler

Foto von Taylor Vick auf Unsplash Source

Ein KI-Agent mit korrekten Berechtigungen interpretiert ein neues Datenschema falsch und löscht kritische Datensätze aus einem Cloud-Objektspeicher. Bis jemand den Fehler bemerkt, hat der Agent bereits drei weitere Batches verarbeitet. Die Daten sind weg. Nachgelagerte Systeme liefern Fehlermeldungen. Den Agent abzuschalten stoppt zwar den Schaden, bringt aber keine einzige Zeile zurück.

Genau dieses Szenario war der Anlass für die strategische Partnerschaft, die Cohesity und ServiceNow am 10. März 2026 angekündigt haben. Ihr Versprechen: Point-in-Time-Rollback für alles, was ein Agent berührt, von Vektordatenbanken über Modellkonfigurationen bis hin zum Arbeitsspeicher des Agenten selbst.

Warum Prävention allein nicht reicht

Die Branche hat zwei Jahre lang Guardrails, Freigabeprozesse und Observability-Layer für KI-Agenten gebaut. Das ist alles wichtig. Aber es setzt voraus, dass man jedes Problem erkennt, bevor Schaden entsteht. Die Zahlen sprechen eine andere Sprache.

Laut einer Enterprise-Erhebung von Fast.io stoßen 30% aller autonomen Agent-Ausführungen auf Fehler, die eine Wiederherstellung erfordern: Halluzinationen, Context-Window-Überläufe, API-Rate-Limits. Tool-Versionierung allein verursacht 60% der Produktionsfehler. Und bis Ende 2026 werden 40% der Enterprise-Anwendungen aufgabenspezifische KI-Agenten enthalten, gegenüber weniger als 5% im Jahr 2025.

Die Rechnung ist simpel: Mehr Agenten mit mehr Autonomie bedeutet mehr Fehler, und sie passieren schneller, als Menschen eingreifen können. Prävention reduziert die Häufigkeit. Recovery bestimmt das Ausmaß des Schadens.

Der Vergleich mit Datenbank-Backups liegt nahe. Kein vernünftiges Engineering-Team betreibt eine Produktionsdatenbank ohne Point-in-Time-Recovery. Nicht weil Ausfälle erwartet werden, sondern weil sie unvermeidlich sind. Die Agent-Infrastruktur erreicht gerade denselben Reifegrad. The Register brachte es auf den Punkt: “Anbieter bauen Werkzeuge, um das Chaos aufzuräumen, das KI-Agenten hinterlassen.”

Drei Risikobereiche, die Cohesity identifiziert hat

Cohesitys Resilienz-Strategie adressiert drei Bedrohungskategorien:

Ausfälle der KI- und Agent-Infrastruktur. Modelle, Vektordatenbanken, Feinabstimmungsdaten und Konfigurationen, von denen Agenten abhängen. Eine korrupte Embedding-Datenbank verschlechtert unbemerkt jede Agent-Entscheidung.
Unkontrollierte, versehentliche oder böswillige Agent-Aktionen. Ein Agent, der aus seiner eigenen Perspektive korrekt arbeitet, aber Schaden anrichtet, weil seine Anweisungen, Daten oder Berechtigungen fehlerhaft waren. Dazu gehören auch Prompt-Injection-Angriffe, die das Verhalten eines Agenten umlenken.
Governance sensibler Daten für KI. Agenten, die auf Trainingsdaten, Kundendaten oder proprietäre Informationen zugreifen, ohne angemessene Kontrollen. Recovery bedeutet hier nachweisen zu können, welche Daten ein Agent abgerufen hat, und sie in einen bekannten guten Zustand zurückzusetzen. Besonders relevant im DACH-Raum, wo die DSGVO strenge Nachweispflichten für automatisierte Datenverarbeitung vorschreibt.

Was die Cohesity-ServiceNow-Integration konkret leistet

Die Partnerschaft verbindet zwei Plattformen, die bisher nicht zusammengearbeitet haben. ServiceNows AI Agent Control Tower übernimmt die Agent-Governance: Registrierung, Monitoring, Policy-Durchsetzung und Audit-Trails. Cohesitys Data Cloud übernimmt den Datenschutz: unveränderliche Snapshots, verschlüsselte Speicherung und schnelle Wiederherstellung.

Der Ablauf bei einem Vorfall:

Erkennung. ServiceNows Control Tower identifiziert anomales Agent-Verhalten: Policy-Verstöße, unerwartete Datenzugriffsmuster oder Fehler-Spitzen. Signale können intern oder von externen Tools wie Datadog oder Dynatrace kommen.

Bewertung. Das System ermittelt, was der Agent angefasst hat: welche Datenbanken, welche Objektspeicher, welche SaaS-Anwendungen, welche Vektor-Embeddings. Cohesitys Metadaten-Layer kartiert den Explosionsradius.

Wiederherstellung. Cohesity löst API-gesteuerte Restaurationen über alle betroffenen Systeme aus. Das ist keine einzelne Datenbank-Wiederherstellung aus einem Backup. Es ist eine synchronisierte Point-in-Time-Recovery über eine gesamte IT-Landschaft: KI-Agenten, Agent-Memory, Vektordatenbanken, Modellkonfigurationen, Trainings- und Feinabstimmungsdaten und Enterprise-Datenspeicher. Alles auf denselben Zeitpunkt wiederhergestellt.

Verifizierung. Der wiederhergestellte Zustand wird validiert, bevor der Agent wieder aktiviert wird. Bill McDermott, CEO von ServiceNow, beschrieb das Ziel als “Agentic AI vertrauenswürdig by Design machen.”

Die Integration soll im Laufe von 2026 allgemein verfügbar werden.

Was geschützt wird

Der Umfang geht weit über klassische Anwendungsdaten hinaus:

Agent-Memory und Kontext (Gesprächsverlauf, erlernte Präferenzen, Zustand)
Vektordatenbanken (Embeddings, die RAG-Pipelines antreiben)
Modellkonfigurationen (Feinabstimmungsparameter, Prompt-Templates, Tool-Definitionen)
Enterprise-Datenspeicher (Datenbanken, Objektspeicher, SaaS-Anwendungsdaten)
Trainings- und Feinabstimmungsdatensätze (die Daten, die das Verhalten des Agenten geprägt haben)

Das ist entscheidend, weil Agent-Fehler selten isoliert auftreten. Wenn ein Agent eine Vektordatenbank korrumpiert, treffen alle anderen Agenten, die dieselbe Datenbank abfragen, schlechtere Entscheidungen. Wiederherstellung muss ganzheitlich sein, sonst ist es keine Wiederherstellung.

Der entstehende Markt für Agent-Resilienz

Cohesity ist nicht der einzige Anbieter, der diesen Bedarf erkannt hat. In derselben Woche wie die ServiceNow-Ankündigung hat Cohesity auch mit Datadog eine Partnerschaft geschlossen, um Agent-Resilienz über observability-gesteuerte Recovery bereitzustellen. Datadog erkennt die Anomalie, Cohesity übernimmt den Rollback.

Rubrik hat Agent Rewind vorgestellt, ein konkurrierendes Produkt, das Organisationen ermöglicht, Fehler von KI-Agenten rückgängig zu machen. Rubriks Ansatz bietet Einblick in Agent-Aktionen und die Möglichkeit, Änderungen an Anwendungen und Daten zurückzuspulen.

Dieses Muster kennen wir aus der Cloud-Infrastruktur. Als Kubernetes sich durchsetzte, entstand ein ganzes Ökosystem von Backup- und Disaster-Recovery-Tools speziell für containerisierte Workloads (Velero, Kasten, Portworx). Die Agent-Infrastruktur folgt derselben Entwicklung: Erst die Fähigkeit, dann die Guardrails, dann die Recovery-Schicht.

Was das für den DACH-Markt bedeutet

Für Unternehmen im deutschsprachigen Raum hat Agent-Resilienz eine zusätzliche Dimension. Der EU AI Act fordert für Hochrisiko-KI-Systeme nicht nur Transparenz und Audit-Trails, sondern auch die Fähigkeit, Entscheidungen zurückzuverfolgen und bei Bedarf rückgängig zu machen. Die DSGVO verlangt bei automatisierter Verarbeitung personenbezogener Daten nachweisbare Kontrollmechanismen. Eine Agent-Resilienz-Plattform, die dokumentiert, was ein Agent wann mit welchen Daten gemacht hat und den Zustand wiederherstellen kann, ist damit nicht nur ein technisches Nice-to-have, sondern wird zunehmend zur Compliance-Anforderung.

Für Unternehmen, die bereits Agenten in der Produktion betreiben, lautet der nächste Schritt: Prüfen Sie Ihre Agent-Infrastruktur genauso, wie Sie Ihre Datenbank-Backup-Strategie prüfen. Können Sie diese Fragen beantworten?

Wenn ein Agent Ihre Vektordatenbank jetzt korrumpiert, wie lange dauert die Wiederherstellung?
Haben Sie unveränderliche Snapshots Ihrer Agent-Konfigurationen und des Agent-Memorys?
Können Sie mehrere voneinander abhängige Systeme auf denselben Zeitpunkt wiederherstellen?

Falls die Antwort auf eine dieser Fragen “nein” oder “weiß ich nicht” ist, haben Sie Ihre Lücke gefunden.

Häufig gestellte Fragen

Was ist KI-Agent-Resilienz?

KI-Agent-Resilienz ist die Fähigkeit, sich von Fehlern autonomer KI-Agenten zu erholen, einschließlich Datenkorrumpierung, versehentlichen Löschungen und kaskadierenden Fehlern. Sie umfasst das Erstellen unveränderlicher Snapshots von Agent-Umgebungen und die Ermöglichung von Point-in-Time-Wiederherstellung von Agenten, ihrem Speicher, Vektordatenbanken, Modellkonfigurationen und Unternehmensdaten.

Wie funktioniert die Cohesity-ServiceNow-Resilienz-Plattform?

ServiceNows AI Agent Control Tower überwacht das Agent-Verhalten und erkennt Anomalien oder Policy-Verstöße. Wenn ein Problem identifiziert wird, löst Cohesitys Data Cloud API-gesteuerte, synchronisierte Point-in-Time-Wiederherstellungen über die betroffenen Systeme aus und stellt Agenten, Daten und Infrastruktur in einen verifizierten Zustand vor dem Vorfall wieder her.

Warum brauchen KI-Agenten Rollback- und Recovery-Fähigkeiten?

Forschungsergebnisse zeigen, dass 30% der autonomen Agent-Ausführungen auf Fehler stoßen, die eine Wiederherstellung erfordern. Agenten können Daten falsch interpretieren, Datensätze löschen, Vektordatenbanken korrumpieren oder kaskadierende Fehler über verbundene Systeme verursachen. Prävention und Guardrails reduzieren die Häufigkeit, aber Recovery-Fähigkeiten bestimmen das Ausmaß bei unvermeidlichen Fehlern.

Welche Alternativen zu Cohesity gibt es für KI-Agent-Recovery?

Rubrik hat Agent Rewind vorgestellt, ein Konkurrenzprodukt für Einblick in Agent-Aktionen und die Möglichkeit, Änderungen rückgängig zu machen. Cohesity kooperiert auch mit Datadog für observability-gesteuerte Recovery. Der Markt für Agent-Resilienz entsteht gerade und entwickelt sich ähnlich wie Kubernetes-Backup-Tools nach der Container-Adoption.

Ist KI-Agent-Resilienz für die DSGVO-Compliance relevant?

Ja. Die DSGVO verlangt bei automatisierter Verarbeitung personenbezogener Daten nachweisbare Kontrollmechanismen. Der EU AI Act fordert für Hochrisiko-KI-Systeme die Fähigkeit, Entscheidungen zurückzuverfolgen und rückgängig zu machen. Eine Agent-Resilienz-Plattform, die dokumentiert, was ein Agent mit welchen Daten gemacht hat und den Zustand wiederherstellen kann, wird zunehmend zur Compliance-Anforderung.

Warum Prävention allein nicht reicht#

Drei Risikobereiche, die Cohesity identifiziert hat#

Was die Cohesity-ServiceNow-Integration konkret leistet#

Was geschützt wird#

Der entstehende Markt für Agent-Resilienz#

Was das für den DACH-Markt bedeutet#

Häufig gestellte Fragen#

Was ist KI-Agent-Resilienz?#

Wie funktioniert die Cohesity-ServiceNow-Resilienz-Plattform?#

Warum brauchen KI-Agenten Rollback- und Recovery-Fähigkeiten?#

Welche Alternativen zu Cohesity gibt es für KI-Agent-Recovery?#

Ist KI-Agent-Resilienz für die DSGVO-Compliance relevant?#