Das beste KI-Modell der Welt löst weniger als jede dritte professionelle Arbeitsaufgabe beim ersten Versuch korrekt. So lautet das zentrale Ergebnis von APEX-Agents, einem Benchmark, den Mercor im Januar 2026 veröffentlicht hat. Getestet wurden 480 echte Aufgaben aus Investmentbanking, Unternehmensberatung und Wirtschaftsrecht. Claude Opus 4.6 führt die Rangliste mit 29,8% an. GPT-5.2 kam auf 23%. Die meisten Modelle lagen bei 18% oder darunter. Keine akademischen Übungen, sondern die tatsächliche Tagesarbeit von Fachleuten bei Goldman Sachs, McKinsey und Latham & Watkins.
Der Benchmark kommt zu einem heiklen Zeitpunkt. Wagniskapitalgeber rufen 2026 zum “Jahr der AGI” aus. Enterprise-Budgets für KI-Agenten haben sich verdreifacht. CEOs verkünden auf Earnings Calls, dass KI Anwälte, Buchhalter und Analysten ersetzen wird. APEX-Agents sagt nicht, dass sie falsch liegen. Es sagt, dass sie zu früh dran sind, und dass der Abstand zwischen Demo und Produktivbetrieb größer ist, als die meisten annehmen.
Was APEX-Agents wirklich testet
Die meisten KI-Benchmarks prüfen Einzelfähigkeiten: eine Wissensfrage beantworten, eine Funktion schreiben, eine Matheaufgabe lösen. APEX-Agents testet etwas anderes: Kann ein KI-Agent die vollständige Arbeit eines Fachmanns in einer realistischen digitalen Arbeitsumgebung erledigen?
Der Benchmark wurde von Mercors Forschungsteam zusammen mit über 200 Fachexperten entwickelt, darunter Praktiker von Goldman Sachs, McKinsey und Cravath, Swaine & Moore. Sie erstellten 33 simulierte Arbeitsumgebungen mit 480 Aufgaben, verteilt auf drei Berufsbilder:
Investmentbanking-Analyst. Aufgaben umfassen den Aufbau von Finanzmodellen aus verstreuten Quelldokumenten, das Verfassen von Pitch-Book-Abschnitten, die Analyse von Vergleichsdaten über mehrere Tabellenkalkulationen hinweg und die Erstellung mandantenfertiger Memos. Der Agent muss Daten aus PDFs, E-Mails, Slack-Threads und Google-Drive-Dokumenten zusammentragen und daraus Ergebnisse erstellen, die ein Managing Director tatsächlich verwenden würde.
Unternehmensberater. Aufgaben umfassen Marktgrößenbestimmung, Wettbewerbsanalyse, Prozessabbildung und Folienerstellung. Eine typische Aufgabe erfordert das Lesen eines Kundenbriefings in einem Dokument, das Abrufen von Finanzdaten aus einer Tabelle, den Abgleich mit Slack-Nachrichten von “Teammitgliedern” und die Erstellung einer strukturierten Empfehlung mit Datenbasis.
Wirtschaftsanwalt. Aufgaben beinhalten Vertragsprüfung, Due-Diligence-Analyse, regulatorische Recherche und Memo-Erstellung. Der Agent navigiert durch Datenräume, vergleicht Klauseln über mehrere Verträge hinweg und wendet Rechtsstandards auf konkrete Sachverhalte an.
Jede Aufgabe hat 1 bis 10 Bestanden/Nicht-bestanden-Kriterien, verfasst von den Fachleuten, die diese Arbeit tatsächlich bewerten würden. Der Standard ist “mandantenfertig,” nicht “technisch vorhanden.” Wenn die Analyse stimmt, aber falsch formatiert ist, gilt sie als nicht bestanden. Wenn die Daten korrekt sind, aber die Begründung fehlt, gilt sie als nicht bestanden.
Entscheidend: Die Websuche ist deaktiviert. Der Agent kann nur mit den Informationen arbeiten, die in seiner simulierten Umgebung verfügbar sind, genau wie ein Junior-Analyst in einem Deal-Team, der mit dem arbeiten muss, was im Datenraum liegt, und nicht mit dem, was im Internet steht.
Die Rangliste: Wie jedes große Modell abschnitt
Hier die vollständige Rangliste, Stand Februar 2026, gemessen als Pass@1 (Erfolgsquote beim ersten Versuch):
| Modell | Gesamtwert | Investmentbanking | Beratung | Recht |
|---|---|---|---|---|
| Claude Opus 4.6 (Thinking=High) | 29,8% ± 3,6% | 33% | 33% | 24% |
| Gemini 3 Flash (Thinking=High) | 24,0% ± 3,3% | - | 19% | 26% |
| GPT-5.2 (Thinking=High) | 23,0% ± 3,2% | 27% | 23% | - |
| Claude Opus 4.5 (Thinking=High) | 18,4% ± 2,9% | - | - | - |
| Gemini 3 Pro (Thinking=High) | 18,4% ± 2,7% | - | - | 24% |
| GPT-5 (Thinking=High) | 18,3% ± 2,9% | 27% | - | - |
| Grok 4 | 15,2% ± 2,4% | - | - | - |
| Kimi K2.5 | 14,4% ± 2,25% | - | - | - |
Mehrere Muster fallen auf.
Das beste Modell scheitert in 70% der Fälle. Opus 4.6 führt das Feld an, aber eine 30%-Erfolgsquote würde einen Junior-Analysten in der ersten Woche den Job kosten. In Professional Services ist “sieben von zehn Mal falsch” kein Rundungsfehler, sondern ein Haftungsrisiko.
Modelle unterscheiden sich je nach Fachgebiet. Opus 4.6 dominiert Banking und Beratung (je 33%), fällt aber auf 24% bei Recht. Gemini 3 Flash hingegen schneidet am besten bei Recht ab (26%) und am schlechtesten bei Beratung (19%). GPT-5.2 ist im Banking am stärksten (27%). Es gibt kein Modell, das durchgängig in allen drei Berufen gut abschneidet.
Mehrere Versuche helfen, aber nicht genug. Bei acht Versuchen pro Aufgabe (Pass@8) steigt die Trefferquote auf etwa 40%. Das ist besser, aber Produktivumgebungen geben Agenten keine acht Versuche. Ein Mandant erwartet die Antwort einmal, und zwar korrekt.
Der Fortschritt ist real, aber langsam. Vor einem Jahr kamen die besten Modelle auf vergleichbare 5 bis 10%. Der Sprung auf 24 bis 30% ist echtes Vorankommen. Aber der Abstand von 30% auf 90% (Minimum für autonome professionelle Arbeit) ist ein qualitativ anderes Problem als der Sprung von 5% auf 30%.
Warum professionelle Arbeit KI-Agenten überfordert
Die APEX-Agents-Ergebnisse offenbaren spezifische Fehlermuster, die erklären, warum Agenten bei professionellen Aufgaben scheitern, obwohl sie bei isolierten Benchmarks wie Coding oder Mathematik gut abschneiden.
Informationsverfolgung über mehrere Anwendungen hinweg
Mercor-CEO Brendan Foody formulierte es direkt: “Die Art, wie wir unsere Jobs machen, ist nicht so, dass eine Person uns den ganzen Kontext an einem Ort gibt. Im echten Leben arbeitet man über Slack und Google Drive hinweg.”
Eine typische APEX-Aufgabe erfordert, dass der Agent einen relevanten E-Mail-Thread findet, drei verknüpfte Dokumente öffnet, Zahlen aus einer Tabelle zieht, sie mit einer PDF abgleicht und alles in ein Memo zusammenfasst. Die meisten Modelle verlieren bei diesen Kontextwechseln den Überblick. Sie “vergessen” Daten, die sie zwei Schritte zuvor gesehen haben, oder sie finden die richtige Datei gar nicht erst.
Das unterscheidet sich grundlegend von einem Coding-Benchmark, bei dem der gesamte relevante Kontext in einem Repository liegt. Professionelle Arbeit verteilt sich standardmäßig über Tools und Formate.
Mehrdeutigkeit und Ermessensentscheidungen
Coding-Aufgaben haben richtige Antworten. Eine Funktion besteht die Testsuite oder nicht. Professional-Services-Arbeit steckt voller Mehrdeutigkeit. “Analysieren Sie die Wettbewerbslandschaft” spezifiziert nicht, wie viele Wettbewerber einzubeziehen sind, welche Kennzahlen priorisiert werden sollen oder wie tief die Analyse gehen soll. Fachleute nutzen Erfahrung und Mandantenwissen für diese Entscheidungen. Aktuelle Modelle neigen entweder zur Überfrachtung (irrelevante Details) oder zur Untererfassung (fehlende kritische Faktoren).
Format- und Präsentationsstandards
Investmentbanken und Beratungsfirmen haben strenge Präsentationsstandards. Zahlen brauchen bestimmte Dezimalstellen. Charts erfordern spezifische Formatierung. Memos folgen starren Strukturen. Modelle liefern häufig korrekte Analysen in einer Verpackung, die nie eine Qualitätsprüfung bestehen würde. Die APEX-Bewertungskriterien berücksichtigen das, weshalb die Scores niedriger ausfallen, als reine “Korrektheit”-Metriken vermuten ließen.
Was das für die KI-Strategie in Unternehmen bedeutet
APEX-Agents ist keine Horrormeldung. Es ist ein Kalibrierungsinstrument. Folgendes sagen die Daten Entscheidern tatsächlich.
KI-Agenten sind Copiloten, keine Ersatzkräfte (noch nicht)
Die 30%-Erfolgsquote des besten Modells beim ersten Versuch bedeutet: Agenten können manche professionellen Aufgaben selbstständig bewältigen, die meisten erfordern jedoch menschliche Prüfung. Das praktische Einsatzmodell ist nicht “den Analysten ersetzen,” sondern “dem Analysten einen Assistenten geben, der 30% der Aufgaben erledigt und die restlichen 70% vorarbeitet.”
Eine Workday-Studie ergab, dass 37% der durch KI eingesparten Zeit für Nacharbeit verloren gehen, also für das Korrigieren und Überprüfen dessen, was die KI produziert hat. Dieses Verhältnis ist entscheidend. Wenn die Prüfung der Agentenarbeit länger dauert als die Eigenarbeit, verschwindet der Produktivitätsgewinn.
Fachspezifische Abstimmung ist entscheidend
Die Tatsache, dass Modelle in Banking, Beratung und Recht unterschiedlich abschneiden, bedeutet: Generische “KI für Unternehmen”-Einsätze werden hinter fachspezifischen Lösungen zurückbleiben. Eine Organisation, die Agenten für Rechtsarbeit einsetzt, sollte Modelle anhand von Rechts-Benchmarks bewerten, nicht anhand von Gesamtscores. Gemini 3 Flashs 26% bei Rechtsaufgaben übertreffen die 19% bei Beratung deutlich.
Für DACH-Unternehmen kommt ein weiterer Aspekt hinzu: Keiner der getesteten Aufgabenblöcke bildet deutsches, österreichisches oder schweizerisches Recht ab. Die APEX-Scores für Corporate Law basieren auf US-amerikanischem und englischem Recht. Die tatsächliche Leistung bei der Anwendung von BGB, HGB oder DSGVO-spezifischen Fragestellungen dürfte noch niedriger ausfallen, weil die Modelle auf diese Rechtsordnungen weniger trainiert sind.
Benchmarks sollten Einkaufsentscheidungen steuern
Vor APEX-Agents hatten Enterprise-Einkäufer begrenzte Möglichkeiten, die Fähigkeiten von Agenten für Wissensarbeit zu vergleichen. SWE-Bench deckt Coding ab. GAIA testet allgemeine Assistenten. APEX liefert nun den ersten standardisierten Benchmark für Professional Services. Einkaufsteams sollten von Anbietern verlangen, ihre APEX-Scores (oder gleichwertige fachspezifische Benchmarks) offenzulegen, bevor Verträge unterzeichnet werden.
Die Fortschrittskurve zählt
Die absoluten Zahlen (24%, 30%) sind weniger aussagekräftig als die Entwicklung. Modelle sind von 5-10% auf 24-30% in etwa einem Jahr geklettert. Wenn dieses Tempo anhält, sind 50%+ Anfang 2027 denkbar. Aber Benchmark-Fortschritte übersetzen sich nicht immer linear in reale Leistungsfähigkeit. Die letzten 20% (von 80% auf “produktionsreif”) sind in jeder Ingenieurdisziplin historisch die schwersten.
Mercor veröffentlicht eine offene Rangliste und lädt KI-Labore ein, ihre Modelle einzureichen. Der Benchmark wird also mit der Modellentwicklung Schritt halten. Die Scores sollten quartalsweise beobachtet werden, um zu verfolgen, ob die These “Agenten ersetzen Wissensarbeiter” sich mit der Realität deckt.
Häufig gestellte Fragen
Was ist der APEX-Agents Benchmark?
APEX-Agents ist ein von Mercor entwickelter Benchmark, der KI-Agenten an 480 echten professionellen Aufgaben aus Investmentbanking, Unternehmensberatung und Wirtschaftsrecht testet. Die Aufgaben wurden von Fachleuten von Goldman Sachs, McKinsey und Cravath entworfen und erfordern, dass Agenten realistische digitale Arbeitsumgebungen mit Dokumenten, Tabellen, E-Mails und Chat navigieren.
Welches KI-Modell hat den besten APEX-Agents Score?
Stand Februar 2026 führt Claude Opus 4.6 die Rangliste mit 29,8% (Pass@1) an. Gemini 3 Flash erreichte 24,0% und GPT-5.2 kam auf 23,0%. Kein Modell hat 34% in einer einzelnen Berufskategorie überschritten.
Können KI-Agenten Anwälte und Berater ersetzen?
Noch nicht. Der APEX-Agents Benchmark zeigt, dass die besten KI-Modelle weniger als 30% der echten professionellen Aufgaben beim ersten Versuch korrekt lösen. Der Fortschritt ist zwar schnell (vor einem Jahr lagen die Scores bei 5-10%), aber die Modelle kämpfen weiterhin mit anwendungsübergreifender Informationsverfolgung, Mehrdeutigkeit und professionellen Formatierungsstandards.
Was unterscheidet APEX-Agents von anderen KI-Benchmarks?
Anders als Coding-Benchmarks (SWE-Bench) oder allgemeine Assistenten-Benchmarks (GAIA) simuliert APEX-Agents vollständige professionelle Arbeitsumgebungen mit Slack, Google Drive, Tabellen, PDFs und E-Mail. Es testet mehrstufige, anwendungsübergreifende Aufgaben, die die tatsächliche professionelle Arbeit widerspiegeln.
Sind die APEX-Agents Ergebnisse für deutsche Unternehmen relevant?
Die grundsätzliche Erkenntnis, dass KI-Agenten professionelle Wissensarbeit noch nicht zuverlässig erledigen, gilt auch für DACH-Unternehmen. Allerdings basieren die Rechts-Aufgaben auf US-amerikanischem und englischem Recht. Bei Aufgaben nach BGB, HGB oder DSGVO dürften die Ergebnisse noch niedriger ausfallen, da die Modelle weniger auf diese Rechtsordnungen trainiert sind.
