Foto von Carl Raw auf Unsplash Source

Entwickler bei Meta, OpenAI und einer wachsenden Zahl von Tech-Unternehmen treten auf internen Ranglisten gegeneinander an, wer pro Woche die meisten KI-Tokens verbraucht. Das Phänomen hat einen Namen: Tokenmaxxing. Token-Budgets lösen die kostenlose Kantine als Standard-Benefit ab. Ein Ericsson-Ingenieur in Stockholm erzählte der New York Times, er gebe vermutlich mehr für Claude aus als er brutto verdient, die Rechnung zahlt sein Arbeitgeber. TechCrunch berichtet, dass großzügige Token-Kontingente zunehmend zum Standard in Vergütungspaketen für Ingenieure werden.

Das klingt nach Fortschritt, ist aber ein Problem. KI-Adoption am Token-Verbrauch zu messen ist wie Produktivität am Stromverbrauch zu messen. Die Unternehmen, die am meisten Tokens verbrennen, erzielen nicht zwingend den größten Nutzen. Und wer KI-Adoption über Ranglisten trackt, baut systematisch eine Kultur der Verschwendung auf.

Weiterlesen: KI-Agenten-ROI: Was der Einsatz wirklich kostet

So funktioniert die Tokenmaxxing-Kultur

Die Mechanik ist simpel. Ein Unternehmen rollt KI-Coding-Assistenten aus (Claude Code, Cursor, GitHub Copilot, Codex), will die Adoption messen und beginnt, den Token-Verbrauch pro Entwickler zu tracken. Jemand packt die Zahlen auf ein Dashboard. Das Dashboard wird zur Rangliste. Die Rangliste wird zum Wettbewerb.

Eine Plattform namens Tokscale hat daraus ein Produkt gemacht. Entwickler können ihren Token-Verbrauch über Claude Code, Cursor, OpenCode, Codex, Gemini, Kimi und Qwen hinweg tracken, visualisieren und sich gegenseitig übertreffen. Offiziell geht es um Adoptions-Tracking. In der Praxis ist es Gamification.

Token-Budgets als neuer Signing-Bonus

Die Vergütungsseite hat den Trend beschleunigt. Unternehmen werben mittlerweile mit Token-Budgets neben Equity und Grundgehalt. Ein Senior-Entwickler bekommt vielleicht 2.000 Dollar pro Monat an API-Credits als Teil seines Angebots. Die Logik: Gebt Entwicklern unbegrenzten Zugang zu den besten KI-Tools, und sie liefern schneller.

Bis zu einem gewissen Punkt stimmt das auch. Entwickler mit Zugang zu Claude oder GPT-5 für Code-Generierung, Debugging und Architektur-Reviews arbeiten tatsächlich schneller. Das Problem beginnt, wenn das Unternehmen Zugang mit Verbrauch verwechselt. Ein Token-Budget von 2.000 Dollar pro Monat zu haben bedeutet nicht, dass 2.000 Dollar pro Monat auszugeben wünschenswert ist. Aber sobald es eine Rangliste gibt, passiert genau das.

Die Eitelkeits-Metrik-Falle

Sarah Sachs, Ingenieurin, brachte es auf X auf den Punkt: “Being at top of @OpenAI token usage list is a vanity metric. Our job as engineers is to minimize token usage while maximizing value.” Frei übersetzt: Ganz oben auf der Token-Rangliste zu stehen ist eine Eitelkeitsmetrik. Unser Job ist es, den Token-Verbrauch zu minimieren und gleichzeitig den Nutzen zu maximieren.

Sie hat recht. Die effektivsten KI-gestützten Entwickler sind nicht die, die am meisten Tokens verbrennen. Es sind die, die wissen, wann ein günstiges, schnelles Modell für Standardcode reicht und wann ein teures Reasoning-Modell für Architekturentscheidungen gerechtfertigt ist. Hoher Token-Verbrauch kann sogar schlechtes Prompt-Engineering signalisieren, ineffiziente Agent-Schleifen oder einen Entwickler, der KI als Krücke statt als Werkzeug nutzt.

Warum Token-Verbrauch nicht gleich Produktivität ist

Das Grundproblem beim Tokenmaxxing: Es verwechselt Input mit Output. Verbrauchte Tokens sagen nichts über ausgelieferten Code, behobene Bugs, fertige Features oder gelöste Kundenprobleme.

Die versteckte Token-Steuer

PYMNTS-Recherchen zeigen, dass interner Verbrauch durch System-Prompts, Reasoning-Schleifen und Agent-Workflows 50 bis 90 Prozent des gesamten Token-Verbrauchs in agentischen Produkten ausmachen kann. Das bedeutet: Der Großteil der Tokens auf der Rangliste ist keine menschliche Produktivität. Es ist maschineller Overhead.

Ein Agent, der 15 Reasoning-Schritte braucht, um eine Aufgabe zu erledigen, die ein besser prompteter Agent in 3 Schritten löst, erscheint auf der Token-Rangliste “produktiver”. Multi-Agent-Systeme verschärfen das Problem: Galileos Forschung zeigt, dass Agenten, die einzeln funktionieren, in Kombination teure Gespräche führen, die außer Kontrolle geraten. Geschwätzige Agenten, die zu viel kommunizieren, können das 50- bis 500-Fache der nötigen Tokens verbrennen.

Die Kosten-Klippe vom Prototyp zur Produktion

Tokenmaxxing-Kultur blüht in Prototyp-Umgebungen, wo Kosten trivial niedrig sind. Ein Entwickler, der während eines Hackathons 50 Dollar in Tokens verbraucht, wirkt produktiv. Das Problem: Dieselben Muster, skaliert auf Produktion mit Tausenden gleichzeitigen Nutzern, können 500.000 bis über 1 Million Dollar monatliche LLM-Rechnungen erzeugen. Der State-of-FinOps-Report 2026 zeigt, dass 98 Prozent der Organisationen ihren KI-Spend inzwischen aktiv managen, gegenüber 31 Prozent vor zwei Jahren. Dieser Sprung kam nicht aus Vorsicht. Er kam, weil die Rechnungen eintrafen.

Weiterlesen: KI-Agent-Rechenkosten: Warum 60 % des Budgets für nichts verbrannt werden

Die realen Kosten, wenn alle auf Maximum drehen

Enterprise-Ausgaben für generative KI erreichten 2025 geschätzte 37 Milliarden Dollar, ein 3,2-facher Anstieg gegenüber 2024. Ein erheblicher und wachsender Anteil dieser Ausgaben fließt in Token-Verbrauch ohne messbaren Geschäftsnutzen.

Was Tokenmaxxing ein Unternehmen kostet

Nehmen wir ein Unternehmen mit 200 Entwicklern, jeder mit 1.500 Dollar Token-Budget pro Monat. Das sind 300.000 Dollar monatlich, oder 3,6 Millionen Dollar pro Jahr, allein für KI-Inferenzkosten. Wenn die Tokenmaxxing-Kultur den Durchschnittsverbrauch von 400 Dollar (sinnvolle Nutzung) auf 1.200 Dollar (Wettbewerbsnutzung) treibt, gibt das Unternehmen 1,92 Millionen Dollar jährlich für Tokens aus, die Ranglistenpunkte statt Geschäftswert produzieren.

Für DACH-Unternehmen kommt erschwerend hinzu: Wer KI-Agenten im großen Stil einsetzt, muss unter dem EU AI Act dokumentieren, dass der Einsatz verhältnismäßig und transparent ist. Gamifizierter, unkontrollierter Token-Verbrauch dürfte schwer als “angemessener Einsatz” zu begründen sein, besonders wenn die DSGVO-relevante Datenverarbeitung durch Agenten nicht pro Transaktion nachvollziehbar ist.

Sinkende Token-Preise verschleiern das Problem

Token-Preise sind in den letzten Jahren um rund 99,7 Prozent gefallen. Trotzdem haben sich die KI-Rechnungen vieler Unternehmen verdreifacht. Günstigere Tokens senken die Ausgaben nicht, wenn der Verbrauch schneller wächst als die Preise fallen. Die Tokenmaxxing-Kultur beschleunigt dieses Verbrauchswachstum, weil sich jeder einzelne Token fast kostenlos anfühlt, während die Summe alles andere als das ist.

Weiterlesen: KI-Agent-FinOps: Cloud-Kosten im Griff, wenn Agenten das Budget sprengen

Was kluge Unternehmen stattdessen messen

Die Unternehmen, die echten Wert aus KI-Agenten ziehen, tracken keinen Token-Verbrauch. Sie tracken Ergebnisse.

Outcome-basierte Metriken, die funktionieren

Deloittes Forschung zur Token-Ökonomie empfiehlt, Tokens als strategische Ressource zu behandeln statt als Eitelkeitsmetrik. Praktische Alternativen zu Token-Ranglisten:

  • Kosten pro gelöstem Ticket. Wie viel kostet es an KI-Inferenz, ein Support-Ticket zu schließen? Diese Metrik erfasst sowohl den gelieferten Wert als auch die Effizienz des Agenten.
  • Eingesparte Stunden pro Entwickler pro Woche. Misst die Stunden, die KI-Tools zurückgeben, nicht die Tokens, die sie verbrauchen. Ein Entwickler, der mit 200 Dollar Token-Verbrauch 10 Stunden spart, ist produktiver als einer, der mit 1.500 Dollar 3 Stunden spart.
  • Token-Effizienz-Ratio. Verbrauchte Tokens geteilt durch abgeschlossene Aufgaben. Belohnt Entwickler, die pro Token mehr schaffen, nicht die, die mehr Tokens verbrennen.
  • Model-Routing-Quote. Trackt, ob Entwickler passende Modelle für jede Aufgabe einsetzen. Einfache Code-Formatierung sollte an ein schnelles, günstiges Modell gehen. Architektur-Reviews rechtfertigen ein Reasoning-Modell. Die besten Entwickler routen bewusst.

Budget-Grenzen statt Ranglisten

Mehrere Unternehmen im TechCrunch-Artikel mussten Token-Budgets einführen, nachdem die Kosten explodierten. Aber Budgets allein reichen nicht. Ohne Outcome-Tracking entsteht nur ein anderes Spiel: Entwickler versuchen, knapp unter dem Limit zu bleiben, statt den Wert zu optimieren.

Der richtige Ansatz kombiniert ein vernünftiges Budget mit Transparenz darüber, was dieses Budget produziert. Ein Engineering Manager sollte sehen können: “Dieses Team hat diesen Monat 8.000 Dollar in Tokens ausgegeben und 14 Features ausgeliefert, 230 Tickets gelöst und Deployment-Fehler um 12 Prozent reduziert.” Das ist ein Gespräch über Wert. “Dieses Team hat 47 Millionen Tokens verbraucht” ist ein Gespräch über nichts.

Häufig gestellte Fragen

Was ist Tokenmaxxing?

Tokenmaxxing ist der Wettbewerb, wer am Arbeitsplatz die meisten KI-Tokens verbraucht. Entwickler in Tech-Unternehmen konkurrieren auf internen Ranglisten, die den Token-Verbrauch über KI-Coding-Assistenten wie Claude Code, Cursor und GitHub Copilot tracken. Der Begriff orientiert sich an der Internetkultur, wo “Maxxing” das Maximieren einer bestimmten Metrik bedeutet.

Warum erstellen Unternehmen KI-Token-Ranglisten?

Unternehmen erstellen Token-Ranglisten, um die KI-Adoptionsrate in Engineering-Teams zu messen. Die Absicht ist sicherzustellen, dass teure KI-Tools genutzt werden. Allerdings erzeugt das Tracking von Verbrauch statt Ergebnissen Fehlanreize, bei denen Entwickler den Token-Verbrauch maximieren statt die Produktivität.

Wie hoch sind typische Enterprise-KI-Token-Kosten?

Enterprise-KI-Token-Kosten variieren stark. Einzelne Entwickler nutzen 400 bis 2.000 Dollar pro Monat an Tokens. Im großen Maßstab berichten Unternehmen von 500.000 Dollar bis über 1 Million Dollar monatlichen LLM-Rechnungen. Der State-of-FinOps-Report 2026 ergab, dass 98 Prozent der Organisationen KI-Spend inzwischen aktiv managen, gegenüber 31 Prozent vor zwei Jahren.

Ist hoher KI-Token-Verbrauch ein Zeichen für Entwickler-Produktivität?

Nein. Hoher Token-Verbrauch signalisiert oft ineffizientes Prompt-Engineering, Agent-Retry-Schleifen oder schlechtes Model-Routing. Interner Verbrauch durch System-Prompts und Reasoning-Ketten kann 50 bis 90 Prozent des Gesamtverbrauchs ausmachen. Produktive Entwickler minimieren den Token-Verbrauch und maximieren gleichzeitig den Output durch präzise Tool-Definitionen und kluges Model-Routing.

Welche Metriken sollten Token-Verbrauch-Tracking ersetzen?

Bessere Metriken sind: Kosten pro gelöstem Ticket, eingesparte Stunden pro Entwickler pro Woche, Token-Effizienz-Ratios (Tokens pro abgeschlossener Aufgabe) und Model-Routing-Quoten. Diese Metriken erfassen den Wert, den KI produziert, statt die Ressourcen, die sie verbraucht.