Salesforce Agentic Work Unit: Die Metrik, die misst, was KI-Agenten tatsächlich leisten

Foto von Lukas auf Pexels Source

2,4 Milliarden Agentic Work Units hat Salesforce bis zum Ende von Q4 FY2026 über Agentforce und Slack ausgeliefert. Allein im vierten Quartal waren es 771 Millionen AWUs, ein Plus von 57 % gegenüber Q3. Eine AWU steht für eine einzelne, abgeschlossene Aufgabe eines KI-Agenten: ein CRM-Datensatz aktualisiert, ein Support-Ticket gelöst, ein Workflow ausgelöst. CEO Marc Benioff stellte die Metrik bei der Earnings-Präsentation im Februar 2026 vor, zusammen mit 11,2 Milliarden Dollar Quartalsumsatz und einem Agentforce-ARR von rund 800 Millionen Dollar.

Die These: Token messen, wie viel eine KI redet. AWUs messen, wie viel sie arbeitet. Doch Analysten widersprechen. Die Metrik verwechsle Aktivität mit Ergebnissen. Ob AWU zum Standard für die Messung von Agentenproduktivität wird oder als Vanity-Metrik endet, hängt davon ab, wie Unternehmen die Zahl tatsächlich einsetzen.

Was eine Agentic Work Unit konkret misst

Eine AWU steht für eine einzelne, diskrete Aufgabe, die ein KI-Agent im Produktivbetrieb abschließt. Kein Prompt, der in einer Sandbox verarbeitet wird. Keine Reasoning-Kette ohne Ergebnis. Eine abgeschlossene Aktion, die etwas in einem Geschäftssystem verändert hat. Die offizielle Definition von Salesforce nennt konkrete Beispiele: Kundendatensatz aktualisieren, automatisierten Workflow auslösen, Support-Ticket lösen, externe API aufrufen oder eine Routing-Entscheidung treffen.

Der Unterschied zu Token ist praktisch relevant. Eine einzelne Kundenservice-Interaktion verbraucht vielleicht 15.000 Token, erzeugt aber nur eine AWU (das gelöste Ticket). Ein Datenanreicherungs-Agent verbraucht 3.000 Token, generiert aber 50 AWUs (50 aktualisierte Datensätze). Token-Verbrauch sagt etwas über Inferenzkosten. AWU sagt etwas über erledigte Arbeit.

Das Token-AWU-Verhältnis

Salesforce erfasst die sogenannte Inferenz-Effizienz-Ratio: produzierte AWUs pro verbrauchtem Token. Das Unternehmen erwartet, dass sich dieses Verhältnis verbessert, je besser Agenten Aufgaben mit weniger Reasoning-Schritten erledigen. Constellation Research betont, dass die Beziehung zwischen Token und AWU “elastisch” sei, also nicht fix. Plattformverbesserungen sollen Agenten mehr Arbeit pro Inferenz-Dollar erledigen lassen.

Die eigentlich spannende Kennzahl: die Divergenz zwischen Token-Verbrauch und AWU-Output. Bleiben Token konstant, während AWUs steigen, wird Agentforce effizienter. Steigen beide proportional, wird nur mehr Arbeit bei gleicher Effizienz erledigt.

Was AWU nicht misst

AWU zählt Ausführung, nicht Qualität. Ein fehlerhaft ausgelöster Workflow zählt trotzdem als eine AWU. Ein mit falschen Daten aktualisierter CRM-Datensatz zählt trotzdem. Ein “gelöstes” Ticket, das am nächsten Tag wieder eröffnet wird, zählt trotzdem. Das CIO-Magazin merkt direkt an: Die Metrik sage CIOs für sich genommen wenig, weil sie nicht zwischen nützlicher Arbeit und Leerlauf unterscheide.

Das ist die zentrale Lücke. Ein Agent, der in einer Retry-Schleife steckt und denselben Datensatz 50 Mal aktualisiert, erzeugt 50 AWUs. Ein Agent, der einen komplexen Fall beim ersten Versuch löst, erzeugt eine. Ohne Qualitäts-Overlay können rohe AWU-Zahlen aufgebläht, manipuliert oder schlicht irreführend sein.

Warum Salesforce eine neue Metrik brauchte

Die Token-Ökonomie funktioniert bei Chat-Interfaces und Copiloten, deren Output Text ist. Man verbraucht Token, generiert Text und kann pro tausend Token abrechnen. Sobald Agenten aber autonom handeln, korreliert Token-Verbrauch nicht mehr mit gelieферtem Wert. Ein Chatbot, der eine lange, nutzlose Antwort schreibt, verbraucht mehr Token (und kostet mehr) als einer, der kurz und korrekt antwortet. Ein Agent, der einen Billing-Streitfall mit drei API-Calls löst, schafft mehr Wert als einer, der 20 Schritte durchdenkt und dann doch eskaliert.

Salesforce hat innerhalb eines Jahres drei Preismodelle durchlaufen. Das ursprüngliche 2-Dollar-pro-Conversation-Modell startete Ende 2024 mit Agentforce. Im Mai 2025 kamen Flex Credits zu 0,10 Dollar pro Aktion. Jetzt stellen AWUs den nächsten Schritt dar: der Versuch, die Metrik an abgeschlossene Aufgaben statt an Konversationen oder rohen Token-Verbrauch zu knüpfen.

Der Wandel von SaaS-Seats zu Agent-Metriken

Die klassische SaaS-Kennzahl ist der Seat: Nutzer mal Preis pro Nutzer pro Monat. Salesforce hat sein eigenes Geschäft (41,5 Milliarden Dollar Umsatz in FY2026) auf diesem Modell aufgebaut. Aber KI-Agenten sitzen nicht auf Stühlen. Sie melden sich nicht an. Sie arbeiten autonom, oft um 3 Uhr morgens, wenn niemand zuschaut, und erledigen Aufgaben, die vorher kein Mensch bearbeitet hat.

AWU ist Salesforces Antwort auf die Frage, die jeder Enterprise-KI-Anbieter stellen muss: Wenn man keine Seats zählen kann, was zählt man dann? Microsoft setzt auf Copilot-Aktionen und verbrauchsbasierte Credits. OpenAI rechnet pro Token ab. Intercom verlangt $0,99 pro gelöstes Ticket. Jedes Modell enthält andere Annahmen darüber, wo der Wert entsteht.

Die Analysten-Kritik: Aktivität vs. Ergebnisse

Die schärfste Kritik formuliert CustomerThink. Die Analyse nennt AWU “the new bad query of the AI era” und zieht einen Vergleich zu den frühen Web-Analytics-Zeiten, als Unternehmen Pageviews zählten, ohne zu verstehen, ob Besucher tatsächlich kauften.

Die Kritik hat drei Kernpunkte.

AWU verwechselt Ausführung mit Ergebnis. Ein API-Call, der downstream fehlschlägt, zählt trotzdem als AWU. Ein Workflow, der auslöst aber das falsche Ergebnis produziert, zählt trotzdem. Die Metrik erfasst Aktivität, nicht Korrektheit oder Business-Impact.

AWU ist herstellergesteuert, nicht unabhängig prüfbar. Es gibt keinen Drittanbieter-Standard dafür, was eine “diskrete Aufgabe” ausmacht. Salesforce definiert es, Salesforce zählt es, Salesforce berichtet es. Marc Bara auf Medium zieht den Vergleich zu Engagement-Metriken, die Social-Media-Plattformen früher selbst meldeten, bevor Werbetreibende unabhängige Prüfung forderten.

AWU verwechselt Volumen mit Effizienz. 771 Millionen AWUs in einem Quartal klingt beeindruckend. Aber ohne Kenntniss der Erfolgsquote, Fehlerrate oder Rework-Rate bleibt die Zahl zweideutig. Wenn 30 % der AWUs Retries, Fehlerkorrekturen oder redundante Operationen waren, liegt der tatsächliche produktive Output deutlich niedriger.

Für DACH-Unternehmen besonders relevant

In der DACH-Region kommt eine weitere Dimension hinzu: Messbarkeit und Nachweispflicht. Der EU AI Act verlangt ab August 2026 für Hochrisiko-KI-Systeme dokumentierte Leistungsnachweise. Eine reine Durchsatzmetrik wie AWU erfüllt diese Anforderungen nicht. Unternehmen, die Agentforce im Kundenservice oder in der HR-Automatisierung einsetzen, brauchen Metriken, die Korrektheit, Fairness und Nachvollziehbarkeit abbilden.

Zudem spielt das Thema Datenschutz eine Rolle. Jede AWU, die auf personenbezogene Daten zugreift, muss DSGVO-konform protokolliert werden. Die Granularität von AWU (jede einzelne Aktion wird gezählt) kann dabei sowohl helfen als auch Risiken schaffen: Sie liefert ein Audit-Log, setzt aber auch voraus, dass jede dieser Aktionen datenschutzrechtlich abgesichert ist.

Was AWU für die Messung von Enterprise-KI bedeutet

Wer Agentforce bereits einsetzt oder evaluiert, bekommt mit AWU eine nützliche und eine gefährliche Sache.

Der Nutzen: eine standardisierte Zählung von Agent-Aktionen über die gesamte Salesforce-Umgebung hinweg. Vor AWU musste man Agent-Aktivitäten in Service Cloud, Sales Cloud und Slack aus verschiedenen Logs zusammensetzen. AWU normalisiert das in eine einzige Zahl. Für Kapazitätsplanung und Trendanalyse hat das echten Wert.

Die Gefahr: AWU als Erfolgsmetrik behandeln. 771 Millionen AWUs bedeuten nichts, wenn man den Anteil erfolgreicher Erledigung nicht kennt, die Kosten pro erfolgreicher AWU nicht berechnet und die eingesparte Arbeitszeit pro AWU nicht misst. Ohne diese Ebenen ist AWU ein Tachometer an einem Auto, das möglicherweise im Kreis fährt.

Ein echtes Agent-Mess-Framework aufbauen

Für Unternehmen, die eigene Mess-Frameworks für KI-Agenten entwickeln, weist AWU trotz seiner Lücken in eine sinnvolle Richtung. Die Salesforce Agentforce Metrics-Seite gliedert in drei Ebenen:

Aktivitätsmetriken (AWU-Äquivalent): Wie viele Aufgaben haben Agenten erledigt? Welcher Art? Wie entwickelt sich das Volumen? Das zeigt Durchsatz.

Effizienzmetriken (Token-zu-AWU-Verhältnis): Wie viel Rechenleistung verbraucht jede Aufgabe? Verbessert sich die Effizienz über die Zeit? Das zeigt Kosteneffektivität.

Ergebnismetriken (Lösungsrate, Kundenzufriedenheit, Rework-Rate): Hat die Arbeit das gewünschte Resultat erzielt? Das zeigt Wertschöpfung.

Die meisten Unternehmen haben robuste Ergebnismetriken aus ihren bestehenden CRM- und Ticketing-Systemen. Was ihnen fehlt, sind die ersten beiden Ebenen. AWU treibt die Diskussion dorthin, diese Schichten aufzubauen, egal wie man zu der spezifischen Salesforce-Metrik steht.

Häufig gestellte Fragen

Was ist eine Salesforce Agentic Work Unit (AWU)?

Eine Agentic Work Unit (AWU) ist Salesforces Metrik zur Messung einzelner abgeschlossener Aufgaben von KI-Agenten im Produktivbetrieb. Jede AWU steht für eine erledigte Aktion: CRM-Datensatz aktualisieren, Workflow auslösen, Support-Ticket lösen oder externe API aufrufen. Salesforce hat die Metrik bei den Q4-FY2026-Ergebnissen im Februar 2026 eingeführt.

Wie unterscheidet sich AWU von Token-basierten KI-Metriken?

Token messen die Menge an Text, die ein KI-Modell verarbeitet (Input und Output). AWUs messen abgeschlossene Arbeit: Aufgaben, die etwas in einem Geschäftssystem verändert haben. Eine einzelne Interaktion kann Tausende Token verbrauchen, aber nur eine AWU erzeugen (ein gelöstes Ticket), oder wenige Token verbrauchen, aber viele AWUs generieren (Batch-Datensatzupdates). Salesforce erfasst das Verhältnis als Effizienz-Indikator.

Wie viele AWUs hat Salesforce bisher gemeldet?

Zum Ende von Q4 FY2026 meldete Salesforce 2,4 Milliarden kumulierte AWUs über Agentforce und Slack, davon 771 Millionen allein in Q4. Das entspricht einem Wachstum von 57 % gegenüber dem Vorquartal.

Misst AWU die Qualität der KI-Agenten-Arbeit?

Nein. AWU zählt abgeschlossene Aktionen unabhängig davon, ob das Ergebnis korrekt oder wertvoll war. Ein fehlerhaft ausgelöster Workflow, ein mit falschen Daten aktualisierter Datensatz oder ein Ticket, das am nächsten Tag wieder eröffnet wird, zählen alle als AWU. Salesforce positioniert AWU als Ergänzung zu Ergebnismetriken wie Lösungsrate und Kundenzufriedenheit.

Ist AWU für die ROI-Berechnung von KI-Agenten geeignet?

AWU allein reicht für die ROI-Berechnung nicht aus. Die Metrik liefert nützliche Durchsatzdaten (wie viele Aufgaben Agenten erledigen) und in Kombination mit Token-Verbrauch ein Effizienzverhältnis. Für den ROI braucht man aber Ergebnismetriken: War die Aufgabe korrekt erledigt, hat sie menschliche Arbeitszeit gespart, hat sie messbaren Geschäftswert erzeugt? AWU gehört als eine Ebene in ein dreistufiges Mess-Framework: Aktivität, Effizienz und Ergebnisse.

Was eine Agentic Work Unit konkret misst#

Das Token-AWU-Verhältnis#

Was AWU nicht misst#

Warum Salesforce eine neue Metrik brauchte#

Der Wandel von SaaS-Seats zu Agent-Metriken#

Die Analysten-Kritik: Aktivität vs. Ergebnisse#

Für DACH-Unternehmen besonders relevant#

Was AWU für die Messung von Enterprise-KI bedeutet#

Ein echtes Agent-Mess-Framework aufbauen#

Häufig gestellte Fragen#

Was ist eine Salesforce Agentic Work Unit (AWU)?#

Wie unterscheidet sich AWU von Token-basierten KI-Metriken?#

Wie viele AWUs hat Salesforce bisher gemeldet?#

Misst AWU die Qualität der KI-Agenten-Arbeit?#

Ist AWU für die ROI-Berechnung von KI-Agenten geeignet?#