Data Debt ist die neue technische Schuld: Warum KI-Agenten schlechte Daten sofort offenlegen

Foto von Markus Spiske auf Unsplash Source

85% der Unternehmen, die Agentic AI einführen wollen, scheitern an der Datenbereitschaft. Diese Zahl stammt von HFS Research und verschiebt die gesamte Diskussion darüber, warum KI-Agenten-Projekte scheitern. Nicht die Modellqualität ist das Problem, nicht die Rechenkosten, nicht der Fachkräftemangel. Es sind die Daten. Genauer: Jahrzehnte an Abkürzungen im Datenmanagement, die tolerierbar waren, solange Menschen die Daten interpretierten, die aber katastrophal werden, wenn autonome Agenten darauf basierend handeln.

Technische Schuld ist seit zwanzig Jahren das Schreckgespenst der IT-Abteilungen. Data Debt ist schlimmer. Technische Schuld bremst. Data Debt sorgt dafür, dass KI-Agenten aktiv Schaden anrichten.

Was Data Debt wirklich bedeutet (und warum es nicht einfach “schlechte Daten” sind)

Technische Schuld, ein Begriff, den Ward Cunningham 1992 geprägt hat, beschreibt die akkumulierten Kosten von Abkürzungen im Code. Data Debt folgt derselben Logik, bezieht sich aber auf das Datenmanagement: inkonsistente Schemata, undokumentierte Transformationen, doppelte Datensätze über Systeme hinweg, veraltete Daten ohne klare Verantwortlichkeit und Governance-Richtlinien, die auf dem Papier existieren, aber nicht in der Praxis.

Die Unterscheidung ist entscheidend. Unternehmen, die ihre technische Schuld aggressiv abgebaut haben, können trotzdem in Data Debt ertrinken. Ein Unternehmen kann eine saubere, gut getestete Microservices-Architektur betreiben, während seine Kundendaten über 47 Systeme fragmentiert sind, ohne eine einzige verlässliche Quelle. Informatica-CEO Amit Walia bezeichnete Data Debt im März 2026 als die “größte Hürde” für Agentic AI. Die meisten Unternehmen könnten nicht einmal inventarisieren, welche Daten sie besitzen, geschweige denn deren Qualität zertifizieren.

Wo sich Data Debt ansammelt

Data Debt wächst an vorhersagbaren Stellen. CRM-Systeme akkumulieren doppelte Kontakte und veraltete Firmendaten. ERP-Plattformen tragen Jahre an Schema-Migrationen mit sich, die verwaiste Felder hinterlassen haben. Data Warehouses enthalten Transformationslogik, die drei verschiedene Teams auf drei verschiedene Arten implementiert haben, wobei jedes Team seine Version für die kanonische hielt.

McKinsey schätzt, dass nur 20% der Unternehmensdaten die Qualitätsstandards erfüllen, die KI-Anwendungen erfordern. Die anderen 80% sind nicht nutzlos, erfordern aber menschliche Interpretation. Ein Vertriebsmitarbeiter weiß, dass “Siemens AG,” “Siemens Energy” und “Siemens Healthineers” unterschiedliche Unternehmen sind, aber “SAP SE” und “SAP Deutschland” zum selben Konzern gehören. Ein KI-Agent, der diese Datensätze verarbeitet, hat diesen Kontext nicht und trifft potenziell falsche Zuordnungen.

Warum es bisher tolerierbar war

Jahrzehntelang war Data Debt ein Ärgernis, keine Krise. Berichte dauerten länger. Analysten verbrachten 60% ihrer Zeit mit Datenbereinigung statt mit Analyse. Aber Menschen kompensierten. Sie erkannten Anomalien, wendeten Kontext an, trafen Ermessensentscheidungen. Die Tabelle mit dem Tippfehler in Zeile 4.382 löste keine Kette autonomer Aktionen aus. Jemand fand den Fehler, korrigierte ihn, machte weiter.

Diese Kompensationsschicht verschwindet mit Agentic AI. Ein Agent hält nicht inne, um zu prüfen, ob ein Datenpunkt plausibel aussieht. Er verarbeitet, entscheidet und handelt mit Maschinengeschwindigkeit über Tausende von Datensätzen gleichzeitig.

Warum Agentic AI der ultimative Datenqualitäts-Stresstest ist

Herkömmliche KI und Agentic AI reagieren grundlegend unterschiedlich auf schlechte Daten. Eine Empfehlungsmaschine, die mit unsauberen Daten trainiert wurde, schlägt ein falsches Produkt vor. Der Kunde ignoriert den Vorschlag. Schaden: minimal. Ein KI-Agent mit Zugriff auf CRM, E-Mail-System und Preisgestaltung, der auf fehlerhaften Daten basiert, verschickt falsche Angebote an falsche Ansprechpartner zu falschen Preisen. Schaden: realer Umsatzverlust, reale Geschäftsbeziehungen.

Das ist die zentrale Erkenntnis, mit der sich die Branche 2026 auseinandersetzt. Wie Thomson Reuters in ihrem Enterprise-Acceleration-Report festhält: Agentic AI konsumiert Daten nicht passiv. Sie handelt autonom darauf. Jedes Datenqualitätsproblem, das vorher ein Ärgernis war, wird zu einer autonomen Aktion mit Konsequenzen.

Der Verstärkungseffekt

Stellen Sie sich vor, ein KI-Agent verarbeitet Bestellungen über eine Lieferkette. Wenn der Produktkatalog Duplikate enthält (ein typisches Data-Debt-Symptom), bestellt der Agent möglicherweise dieselbe Komponente zweimal bei verschiedenen Lieferanten. Wenn Preisdaten veraltet sind, akzeptiert der Agent Konditionen, die monatelang nicht aktualisiert wurden. Wenn Lieferantenkontakte fragmentiert sind, sendet der Agent Kommunikation an die falsche Person im falschen Unternehmen.

Jeder dieser Fehler passiert in großem Maßstab. Nicht eine fehlgeleitete E-Mail, sondern Hunderte. Nicht eine doppelte Bestellung, sondern Dutzende pro Stunde. Frühe Anwender berichten, dass Datenqualität für 60-70% der Verzögerungen und Misserfolge bei der Einführung verantwortlich ist. Die Agenten funktionieren exakt wie geplant. Die Daten, mit denen sie arbeiten, tun es nicht.

Reale Fehlschläge, reale Zahlen

Das lehrreichste Beispiel bleibt Zillows iBuying-Kollaps 2021. Zillows automatisierter Preisalgorithmus, der auf Immobiliendaten mit Inkonsistenzen und lokalen Marktnuancen agierte, die er nicht interpretieren konnte, führte zu 881 Millionen Dollar Verlust und der Streichung von 2.000 Arbeitsplätzen. Das Modell war nicht defekt. Die Daten waren es.

Für den DACH-Raum ist das Thema besonders relevant. Eine Bitkom-Erhebung zeigt: 72% der deutschen Unternehmen sehen Datenqualität als die größte Herausforderung bei der Einführung von KI-Agenten. Der deutsche Mittelstand ist besonders betroffen, da viele Firmen über Jahrzehnte gewachsene operative Systeme betreiben, in denen Datenqualität nie systematisch adressiert wurde.

Die Kosten von Data Debt im Jahr 2026

Die wirtschaftlichen Argumente für die Behebung von Data Debt sind nicht mehr zu ignorieren. IBM schätzt, dass schlechte Daten die US-Wirtschaft jährlich 3,1 Billionen Dollar kosten. Gartner beziffert die durchschnittlichen Auswirkungen schlechter Datenqualität auf $12,9 Millionen pro Organisation pro Jahr. Diese Zahlen stammen aus der Zeit vor der Agentic-AI-Welle. Sie werden steigen.

Warum Agenten-Deployments die Rechnung vervielfachen

Wenn Agenten autonom operieren, verschwenden Datenfehler nicht nur Analysten-Zeit. Sie lösen reale Aktionen mit realen Kosten aus. Eine Computerworld-Untersuchung ergab, dass Unternehmen beim Einsatz von KI-Agenten 3-5x mehr für Datenaufbereitung ausgeben als für die Modellentwicklung. Dieses Verhältnis widerspricht der Erwartung, die die meisten Unternehmen an KI-Projekte herantragen, bei denen die Budgetplanung davon ausgeht, dass das Modell der teure Teil ist.

Gartner prognostiziert, dass 30% der generativen KI-Projekte bis 2028 nach dem Proof-of-Concept aufgegeben werden, wobei Datenqualität der Haupttreiber ist. Für Agentic AI wird die Ausfallrate höher liegen, weil die Toleranz für schlechte Daten geringer ist. Ein Chatbot, der halluziniert, ist peinlich. Ein Agent, der auf halluzinierten Daten handelt, ist teuer.

Der Markt für Datenqualitäts-Tools spiegelt diese Dringlichkeit wider. IDC prognostiziert ein Wachstum von 5,1 Milliarden Dollar (2025) auf 8,2 Milliarden Dollar (2027), ein Anstieg von 60%, der fast ausschließlich von Unternehmen getrieben wird, die ihre Dateninfrastruktur für autonome KI-Systeme vorbereiten.

Data Debt abbauen, bevor Agenten alles kaputt machen

Organisationen, die Agentic AI erfolgreich einsetzen, teilen einen gemeinsamen Ansatz: Sie behandeln Datenbereitschaft als Infrastrukturprojekt, nicht als Aufräumaktion. Der Unterschied ist entscheidend. Eine Aufräumaktion hat ein Enddatum. Ein Infrastrukturprojekt hat laufende Wartung, Monitoring und Investitionen.

Mit einem Data-Debt-Inventar beginnen

Bevor ein Agent deployed wird, muss kartiert werden, wo die Daten tatsächlich liegen. Nicht wo sie laut Architekturdiagrammen liegen sollten, sondern wo sie wirklich sind. Informaticas Ansatz für Agentic Data Management beginnt mit automatisierter Datenentdeckung und Katalogisierung: jede Datenquelle, jede Transformation, jede Abhängigkeit identifizieren.

Die meisten Unternehmen stellen fest, dass sie 3-5x mehr Datenquellen haben als gedacht. Schatten-IT, Abteilungsdatenbanken, Excel-Tabellen, die in kritische Prozesse einfließen: all das trägt Data Debt, die Agenten erben werden.

Datenqualitätsstandards für Agenten definieren

Nicht alle Daten müssen perfekt sein. Aber Daten, auf denen Agenten autonom handeln, müssen einem höheren Standard genügen als Daten, die Menschen vor einer Aktion prüfen. Drei Stufen empfehlen sich:

Stufe 1 (Agenten-autonom): Daten, auf denen Agenten ohne menschliche Prüfung handeln. Erfordert Echtzeit-Validierung, Deduplizierung und Lineage-Tracking. Beispiele: Preisdaten, Kundenkontakte, Lagerbestände.

Stufe 2 (Agenten-unterstützt): Daten, die Agenten verarbeiten, aber bei denen menschliche Genehmigung vor der Aktion nötig ist. Erlaubt niedrigere Qualitätsschwellen mit Human-in-the-Loop-Absicherung. Beispiele: Vertragskonditionen, Compliance-Entscheidungen.

Stufe 3 (Nur Analyse): Daten für Reporting und Analyse, aber nicht für autonome Aktionen. Standard-Datenqualitätspraktiken gelten. Beispiele: historische Trends, Marktforschungsdaten.

Echtzeit-Datenpipelines aufbauen

Nur 15% der Unternehmen verfügen über Echtzeit-Datenpipelines, die KI-Agenten bedienen können, laut Datanami. Agenten, die auf Batch-verarbeiteten Daten vom ETL-Lauf der letzten Nacht agieren, treffen Entscheidungen auf veralteter Grundlage. Für kritische Agenten-Workflows ist Datenaktualität nicht optional.

Das bedeutet nicht, alle Pipelines über Nacht neu zu bauen. Es bedeutet, zu identifizieren, welche Agenten-Workflows Echtzeitdaten benötigen, und diese Pipelines priorisiert umzusetzen.

Daten-Lineage für EU AI Act und DSGVO

Für europäische Unternehmen hat Data Debt eine regulatorische Dimension. Der EU AI Act verlangt, dass Organisationen die Daten dokumentieren, die zum Training und Betrieb von KI-Systemen verwendet werden, einschließlich Herkunft, Qualitätsmetriken und Bias-Bewertungen. Wenn die Daten-Lineage undokumentiert ist (ein Kennzeichen von Data Debt), wird Compliance nahezu unmöglich. In Kombination mit den Anforderungen der DSGVO an Datenverarbeitung und Transparenz stehen DACH-Unternehmen vor einer doppelten regulatorischen Herausforderung, die Data Debt von einem IT-Problem zu einem Vorstandsthema macht.

Häufig gestellte Fragen

Was ist Data Debt und wie unterscheidet sie sich von technischer Schuld?

Technische Schuld bezieht sich auf Abkürzungen im Code, die über die Zeit Wartungskosten akkumulieren. Data Debt bezieht sich auf Abkürzungen im Datenmanagement: inkonsistente Schemata, doppelte Datensätze, undokumentierte Transformationen, veraltete Daten und fehlende Governance. Während technische Schuld die Entwicklung bremst, sorgt Data Debt dafür, dass KI-Agenten autonom falsche Aktionen ausführen, weil sie Datenqualitätsprobleme nicht wie Menschen kompensieren können.

Warum legt Agentic AI Datenqualitätsprobleme stärker offen als herkömmliche KI?

Herkömmliche KI liefert bei schlechten Daten falsche Vorhersagen, die Menschen erkennen und korrigieren können. Agentic AI führt autonome Aktionen auf Basis von Daten durch, ohne menschliche Prüfung. Eine Empfehlungsmaschine, die das falsche Produkt vorschlägt, ist ein Ärgernis. Ein KI-Agent, der falsche Angebote an falsche Ansprechpartner zu falschen Preisen versendet, verursacht realen finanziellen Schaden in großem Maßstab.

Was kostet schlechte Datenqualität Unternehmen?

IBM schätzt, dass schlechte Daten die US-Wirtschaft jährlich 3,1 Billionen Dollar kosten. Gartner beziffert die durchschnittlichen Auswirkungen auf $12,9 Millionen pro Organisation pro Jahr. Unternehmen, die KI-Agenten einsetzen, geben laut Computerworld und HBR 3-5x mehr für Datenaufbereitung aus als für die Modellentwicklung.

Wie viel Prozent der Unternehmensdaten sind bereit für KI-Agenten?

McKinsey schätzt, dass nur 20% der Unternehmensdaten die KI-Qualitätsstandards erfüllen. HFS Research fand heraus, dass 85% der Unternehmen mit Agentic-AI-Initiativen erhebliche Lücken bei der Datenbereitschaft aufweisen und nur 15% über vollständig integrierte Echtzeit-Datenpipelines verfügen.

Welche besonderen Herausforderungen haben DACH-Unternehmen bei Data Debt?

72% der deutschen Unternehmen nennen Datenqualität als größte Herausforderung bei der KI-Agenten-Einführung laut Bitkom. Der Mittelstand ist besonders betroffen, da viele Firmen über Jahrzehnte gewachsene operative Systeme betreiben. Zusätzlich stehen europäische Unternehmen vor einer doppelten regulatorischen Herausforderung durch EU AI Act und DSGVO, die umfassende Daten-Lineage und Transparenz verlangen.

Was Data Debt wirklich bedeutet (und warum es nicht einfach “schlechte Daten” sind)#

Wo sich Data Debt ansammelt#

Warum es bisher tolerierbar war#

Warum Agentic AI der ultimative Datenqualitäts-Stresstest ist#

Der Verstärkungseffekt#

Reale Fehlschläge, reale Zahlen#

Die Kosten von Data Debt im Jahr 2026#

Warum Agenten-Deployments die Rechnung vervielfachen#

Data Debt abbauen, bevor Agenten alles kaputt machen#

Mit einem Data-Debt-Inventar beginnen#

Datenqualitätsstandards für Agenten definieren#

Echtzeit-Datenpipelines aufbauen#

Daten-Lineage für EU AI Act und DSGVO#

Häufig gestellte Fragen#

Was ist Data Debt und wie unterscheidet sie sich von technischer Schuld?#

Warum legt Agentic AI Datenqualitätsprobleme stärker offen als herkömmliche KI?#

Was kostet schlechte Datenqualität Unternehmen?#

Wie viel Prozent der Unternehmensdaten sind bereit für KI-Agenten?#

Welche besonderen Herausforderungen haben DACH-Unternehmen bei Data Debt?#