Foto von Pawel Czerwinski auf Unsplash Source

“Drücken Sie die 1 für Rechnungsfragen. Drücken Sie die 2 für technischen Support. Drücken Sie die 0 für einen Mitarbeiter.” Dieses Skript, seit den 1990er Jahren praktisch unverändert, begrüßt Anrufer bei den meisten Unternehmen. Aber nicht mehr lange. Eine Metrigy-Studie mit 656 Unternehmen ergab: 37,6 % planen, ihre IVR-Systeme vollständig durch KI-gestützte Voice Agents zu ersetzen. Bei den Top-Performern liegt diese Zahl bei 62,5 %. Der Grund: Klassische IVR-Systeme automatisieren nur 7-15 % der Kundeninteraktionen, während Voice AI Agents mit Live-CRM-Anbindung 3-5x höhere Ablösungsraten erreichen und die Kosten pro Anruf von 6-12 € auf unter 0,50 € senken.

Das ist keine Zukunftsmusik. Retell AI verarbeitet 40 Millionen Echtzeit-Anrufe monatlich. PolyAI betreibt über 2.000 Live-Deployments in 45 Sprachen. Gartner prognostiziert 80 Milliarden Dollar Einsparungen bei Contact-Center-Personalkosten bis Ende 2026. Das IVR entwickelt sich nicht weiter. Es wird ersetzt.

Warum klassische IVR-Systeme scheitern

IVR (Interactive Voice Response) war in den 1980er Jahren eine vernünftige Idee. Tonwahl-Routing ermöglichte es Unternehmen, Anrufvolumen ohne proportionalen Personalaufbau zu bewältigen. Vierzig Jahre später erzeugt derselbe Ansatz das Erlebnis, das jeder hasst: starre Menübäume, häufige Fehlweiterleitungen und die unvermeidliche Endlosschleife “Ich habe Sie leider nicht verstanden.”

Die Zahlen hinter der IVR-Frustration

Traditionelle IVR-Systeme automatisieren zwischen 7 % und 15 % der Interaktionen. Der Rest wird an menschliche Agenten weitergeleitet, nachdem der Anrufer bereits 2-4 Minuten mit Tastendrücken und dem Wiederholen von Kundennummern verbracht hat. Diese Übergabe verschwendet Zeit auf beiden Seiten: Der Kunde ist frustriert, und der Agent verbringt die ersten 30-60 Sekunden damit, Informationen neu zu erfassen, die das IVR hätte aufnehmen sollen.

Die Abbruchquoten bei IVR-basierten Systemen liegen in den meisten Contact Centern bei 15-25 %. Kunden, die es durch das Menü schaffen, berichten Zufriedenheitswerte, die 15-20 Punkte niedriger liegen als bei direktem Kontakt mit einem Menschen. Das IVR reduziert die Arbeitslast nicht. Es verschiebt sie und fügt dabei Reibung hinzu.

Was sich geändert hat: LLMs machen natürliche Gespräche möglich

Die Lücke zwischen “Drücken Sie die 1” und echtem Gespräch war ein Technologieproblem. Spracherkennung erreichte in den 2010er Jahren maximal 80-85 % Genauigkeit. Nicht gut genug. Moderne ASR-Systeme (Automatic Speech Recognition) von Deepgram, AssemblyAI und Google liefern heute über 95 % Genauigkeit im Produktivbetrieb. LLMs übernehmen die Schlussfolgerungen, die geskriptete IVR-Systeme nie leisten konnten.

Ein Anrufer, der sagt “Mir wurde letzten Monat das Abo doppelt berechnet, ich möchte eine Erstattung” muss nicht mehr herausfinden, in welchen Menübaum das fällt. Der Voice AI Agent versteht die Absicht, ruft das Konto auf, prüft die Rechnungshistorie und verarbeitet entweder die Erstattung oder leitet an einen Spezialisten mit vollständigem Kontext weiter. Das ist der Unterschied zwischen einem Telefonmenü und einem Gespräch.

Weiterlesen: Was sind KI-Agenten? Ein praktischer Leitfaden für Entscheider

Die echte Kostenrechnung: IVR vs. Voice AI

Der wirtschaftliche Vorteil von Voice AI gegenüber IVR ist nicht subtil. Es ist eine 10-20-fache Kostensenkung bei Routineanrufen, bei besseren Ergebnissen.

Kosten pro Anruf im Detail

Anrufe bei menschlichen Agenten kosten $6-12 pro Stück, wenn man Gehalt, Sozialleistungen, Schulung, Infrastruktur und Management einrechnet. Klassische IVR-Systeme sollten diese Kosten durch Anrufablenkung senken, aber mit Ablenkungsraten von nur 7-15 % landen die meisten Anrufe trotzdem bei Agenten zu vollen Kosten.

Voice AI Agents bearbeiten Anrufe für $0,20-0,50 pro Interaktion. Für ein Unternehmen mit 500.000 Anrufen pro Monat bedeutet die Verlagerung allein der Tier-1-Anfragen (Passwortzurücksetzungen, Bestellstatus, Terminvereinbarungen) auf Voice AI eine Einsparung von $2-3 Millionen jährlich.

Eine Forrester Total Economic Impact Studie im Auftrag von PolyAI ergab: Ein Composite-Unternehmen sparte über drei Jahre 10,3 Millionen Dollar bei den Personalkosten, mit 391 % ROI und Amortisation in unter sechs Monaten.

Lösungsraten, die tatsächlich funktionieren

Die Kosteneinsparungen zählen nur, wenn die KI Probleme löst. Moderne Voice-AI-Plattformen berichten First-Contact-Resolution-Raten von 55-70 % für unterstützte Interaktionstypen. Containment-Raten (Anrufe vollständig ohne menschliche Weiterleitung bearbeitet) erreichen 80 % in Produktivumgebungen mit korrekt konfigurierten Wissensbasen.

Verglichen mit der 7-15 %-Automatisierungsrate von IVR ist das Ergebnis eindeutig.

Was mit der Kundenzufriedenheit passiert

Die Befürchtung bei jeder Automatisierung: Kunden werden es hassen. Die Daten sagen das Gegenteil. Unternehmen mit Hybridmodellen (KI übernimmt Routineanrufe, Menschen die komplexen) berichten 92 % CSAT-Werte, verglichen mit 88 % bei reinem Menschenbetrieb und 78 % bei reinem KI-Betrieb. Die durchschnittliche Bearbeitungszeit sinkt um 56 %, von 6,5 auf 2,9 Minuten. Die Erstantwortzeit fällt um 74 %.

65 % der Kunden geben an, dass Voice AI ihre Telefonerfahrung tatsächlich verbessert, vor allem weil sie Wartezeiten und Menünavigation überspringen. Wenn die Alternative “Drücken Sie die 1, drücken Sie die 4, drücken Sie die 0, warten Sie 12 Minuten” lautet, gewinnt ein Voice Agent, der das Problem in 90 Sekunden löst.

Weiterlesen: KI-Agenten-ROI: Was der Einsatz wirklich kostet

Plattform-Überblick: Wer baut Voice AI Agents

Der Voice-AI-Markt hat sich von Forschungsprojekten zu Produktionsplattformen entwickelt. Fünf Unternehmen übernehmen den Großteil der Enterprise-Deployments, jedes mit einem anderen Ansatz.

Retell AI: No-Code Builder, Omnichannel

Retell AI erreichte $40 Millionen ARR im Januar 2026 und verarbeitet über 40 Millionen monatliche Anrufe mit über 300 % Quartalswachstum. Ihr No-Code Drag-and-Drop-Builder ist der schnellste Weg von “Wir wollen Voice AI” zu “Es läuft.” Seit Januar 2026 decken sie neben Sprache auch Chat, E-Mail und SMS ab. Preise beginnen bei $0,07/Minute für die Plattform, Gesamtkosten liegen bei $0,13-0,31/Minute inklusive Telefonie und LLM-Anbietern. SOC 2, HIPAA und DSGVO-konform.

ElevenLabs: Beste Sprachqualität

ElevenLabs sammelte $500 Millionen bei einer Bewertung von 11 Milliarden Dollar im Februar 2026 ein und macht über 330 Millionen Dollar Jahresumsatz. Ihre Conversational AI 2.0 Plattform bietet unter 100ms Latenz, integriertes RAG für Wissensabfragen und die natürlichsten Stimmen am Markt. Ihr Turn-Taking-Modell erkennt, ob ein Anrufer nachdenkt oder fertig gesprochen hat. Preise liegen bei $0,08/Minute im Business-Tarif. SOC 2 Type II, ISO 27001, HIPAA, PCI DSS Level 1 und DSGVO-zertifiziert.

LiveKit: Open Source, selbst gehostet

Für Teams, die volle Kontrolle wollen, bietet LiveKit ein Open-Source Voice-AI-Framework mit über 1 Million monatlichen Downloads. Das Agents-Framework läuft auf Python und Node.js mit WebRTC-Infrastruktur, PSTN/SIP-Trunking und ca. 100ms End-to-End-Latenz. Tesla nutzt LiveKit für Vertrieb, Support, Versicherung und Pannenhilfe. Salesforce Agentforce basiert darauf. Der Kompromiss: Sie verwalten die Infrastruktur selbst, behalten aber die volle Kontrolle.

PolyAI: Enterprise mit persönlicher Betreuung

PolyAI sammelte $86 Millionen bei einer Bewertung von 750 Millionen Dollar ein. Sie betreiben über 2.000 Live-Deployments in 45 Sprachen für Kunden wie Marriott, Caesars Entertainment und UniCredit. Ihre von Forrester validierten ROI-Zahlen (391 % über drei Jahre) stammen aus Enterprise-Deployments im Produktivbetrieb. Die Restaurantkette The Melting Pot gewann 300.000 Dollar Umsatz allein durch Buchungen außerhalb der Geschäftszeiten zurück.

DACH-Markt: Lokale Alternativen

Im deutschsprachigen Raum gibt es spezifische Anbieter. Cognigy, gegründet in Düsseldorf, bietet eine Enterprise Conversational AI Plattform mit Voice AI Agents für Contact Center. voiceOne positioniert sich als “Made in Germany” KI-Telefonassistent mit DSGVO-Konformität und unbegrenzten parallelen Anrufen. Der Finanzdienstleister Riverty setzt einen KI-Sprachassistenten ein, der 15 % der Anrufe eigenständig löst und die Bearbeitungszeit um 10 % senkt.

Für den DACH-Markt sind DSGVO-Konformität und EU-Serverstandorte keine optionalen Features, sondern Grundvoraussetzungen. Der EU AI Act fügt weitere regulatorische Anforderungen hinzu: Voice AI Systeme, die direkt mit Kunden interagieren, müssen als KI-System gekennzeichnet werden.

Wie Unternehmen tatsächlich von IVR migrieren

Niemand reißt ein produktives IVR-System über Nacht heraus. Die erfolgreichen Unternehmen folgen einem Drei-Phasen-Ansatz, der Risiken begrenzt und gleichzeitig organisatorisches Vertrauen aufbaut.

Phase 1: Parallelbetrieb bei risikoarmen Anrufen

Starten Sie mit Anruftypen, die klare Lösungswege und geringe Auswirkungen haben, falls etwas schiefgeht. Bestellstatus-Abfragen, Terminbestätigungen, Öffnungszeiten und Kontostandsabfragen sind typische Einstiegspunkte. Betreiben Sie den Voice AI Agent parallel zum bestehenden IVR und leiten Sie einen Prozentsatz der Anrufe an das neue System, während das alte als Fallback bleibt.

Image Orthodontics verpasste 19,2 % der eingehenden Anrufe, bevor sie Voice AI einsetzten. Durch die Weiterleitung von Anrufen außerhalb der Geschäftszeiten und bei Überlauf an einen KI-Agenten gewannen sie in einem einzigen Quartal 401.000 Dollar an bezahlten Leistungen zurück.

Phase 2: Ausweitung auf komplexe Interaktionen

Sobald die KI einfache Anrufe zuverlässig bearbeitet (Ziel: über 80 % Containment), erweitern Sie auf Interaktionen, die Datenabfragen und leichte Entscheidungen erfordern: Rechnungsreklamationen, Vertragsänderungen, Retourenbearbeitung. Diese Phase erfordert die Integration mit CRM-, ERP- und Zahlungssystemen. Die KI braucht Echtzeitzugriff auf Kundendaten, keine vorgefertigten Antworten.

Hier scheitern die meisten IVR-zu-AI-Migrationen. Die Technologie funktioniert. Die Integration nicht. Unternehmen, die dies als API-Integrationsprojekt behandeln statt als “einfach anschließen”, kommen schneller voran.

Phase 3: AI-First mit menschlicher Eskalation

Der Endzustand ist nicht 100 % KI. Es ist KI-zuerst mit intelligenter Eskalation. Der Voice Agent bearbeitet alles, was er kann, erkennt, wenn er nicht weiterkommt, und übergibt an einen menschlichen Agenten mit vollständigem Gesprächskontext, Kundenhistorie und einer Zusammenfassung des Problems. Kein “Können Sie bitte alles noch einmal wiederholen, was Sie dem automatischen System gesagt haben.”

Metrigys CEO Robin Gareiss prognostiziert, dass die IVR-Nutzung bis 2030 “drastisch reduziert” und innerhalb eines Jahrzehnts vollständig eliminiert wird. Unternehmen, die jetzt starten, haben drei bis fünf Jahre Vorsprung durch kumuliertes Lernen gegenüber denen, die abwarten.

Weiterlesen: KI-Agenten im Contact Center 2026: Was das $80-Milliarden-Versprechen wirklich liefert

Worauf man achten sollte: Risiken und offene Fragen

Voice AI ist kein Selbstläufer. 75 % der Kunden bevorzugen weiterhin Menschen für komplexe, emotional sensible Themen. Reine KI-Deployments erreichen 78 % CSAT gegenüber 92 % bei Hybridmodellen. Unternehmen, die Voice AI als “alle Agenten entlassen” behandeln statt als “Agenten effektiver machen”, schneiden durchweg schlechter ab.

Latenz bleibt ein entscheidender Faktor. Menschliche Gespräche tolerieren etwa 300-500ms Antwortverzögerung. Über 1,2 Sekunden unterbrechen Anrufer oder legen auf. Die Top-Plattformen (ElevenLabs mit unter 100ms, LiveKit mit ca. 100ms) schaffen das problemlos. Günstigere Alternativen oft nicht.

Regulatorische Anforderungen erhöhen die Komplexität in regulierten Branchen. Gesundheitswesen erfordert HIPAA-Compliance (bzw. entsprechende EU-Äquivalente). Finanzdienstleistungen brauchen PCI DSS. Europäische Deployments brauchen DSGVO und zunehmend die Transparenzanforderungen des EU AI Act für KI-Systeme, die mit Menschen interagieren. Nicht jede Plattform deckt jede Zertifizierung ab.

Der Voice AI Agents Markt soll von 2,4 Milliarden auf 47,5 Milliarden Dollar bis 2034 wachsen, mit einer jährlichen Wachstumsrate von 34,8 %. Das ist nicht die Kurve eines Hype-Zyklus. Das ist eine Technologie, die ihren Vorgänger ersetzt, ein Telefonat nach dem anderen.

Häufig gestellte Fragen

Was kosten Voice AI Agents im Vergleich zu herkömmlichen IVR-Systemen?

Voice AI Agents kosten 0,20-0,50 € pro Interaktion, verglichen mit 6-12 € für einen menschlichen Agenten. Traditionelle IVR-Systeme senken die Gesamtkosten nur marginal, da sie lediglich 7-15 % der Interaktionen automatisieren. Voice AI Agents erreichen 55-80 % Containment-Raten, was die effektive Kostenreduktion bei Routineanrufen auf das 10-20-fache steigert.

Können Voice AI Agents IVR-Systeme vollständig ersetzen?

Ja, und 37,6 % der Unternehmen planen genau das laut einer Metrigy-Studie mit 656 Unternehmen. Bei Top-Performern planen sogar 62,5 % den vollständigen IVR-Ersatz. Empfohlen wird eine schrittweise Migration: erst einfache Anruftypen, dann schrittweise Erweiterung, statt eines abrupten Umstiegs.

Welche Voice-AI-Plattform eignet sich am besten für den Kundenservice?

Das hängt von den Anforderungen ab. Retell AI eignet sich für schnelles No-Code-Deployment mit Omnichannel-Support. ElevenLabs bietet die natürlichste Sprachqualität mit unter 100ms Latenz. LiveKit ist ideal für Teams, die Open-Source und Self-Hosting bevorzugen. PolyAI bietet betreute Enterprise-Deployments mit nachgewiesenem ROI. Für den DACH-Markt sind Cognigy und voiceOne DSGVO-konforme Alternativen.

Bevorzugen Kunden Voice AI gegenüber traditionellen Telefonmenüs?

65 % der Kunden sagen, dass Voice AI ihre Telefonerfahrung verbessert, vor allem durch den Wegfall von Wartezeiten und Menünavigation. Hybridmodelle (KI für Routineanrufe, Menschen für komplexe Themen) erreichen 92 % Kundenzufriedenheit, verglichen mit 88 % bei reinem Menschenbetrieb. Entscheidend ist, dass Kunden bei Bedarf einen Menschen erreichen können.

Wie lange dauert die Migration von IVR zu Voice AI?

Die meisten Unternehmen folgen einem Drei-Phasen-Ansatz über 6-18 Monate. Phase 1 (1-3 Monate) setzt KI bei einfachen Anruftypen wie Bestellstatus und Terminbestätigungen ein. Phase 2 (3-6 Monate) erweitert auf Interaktionen mit CRM-Integration. Phase 3 stellt auf AI-First-Routing mit menschlicher Eskalation um. Forrester-Studien zeigen Amortisationszeiten von unter sechs Monaten bei Enterprise-Deployments.