KI-Agenten vs. menschliche Hacker: Was die Benchmarks wirklich zeigen

Foto von Adi Goldstein auf Unsplash Source

Wiz hat Claude Sonnet 4.5, GPT-5 und Gemini 2.5 Pro gegen menschliche Sicherheitsforscher antreten lassen: 10 Web-Hacking-Aufgaben, modelliert nach realen Schwachstellen. Die KI-Agenten lösten 9 von 10 für unter 50 Dollar LLM-Kosten pro Aufgabe. Menschliche Pentester verlangen für vergleichbare Assessments 15.000 bis 100.000 Dollar. Dann gab Wiz einem Agenten einen realen Sicherheitsvorfall ohne vordefiniertes Ziel. Ergebnis: 500 Tool-Aufrufe in einer Stunde, ohne die Schwachstelle zu finden. Ein Mensch brauchte 5 Minuten.

Diese Diskrepanz fasst den Stand der KI in der offensiven Sicherheit perfekt zusammen: hervorragend beim Musterabgleich gegen bekannte Schwachstellenklassen, völlig überfordert bei der breiten, intuitiven Analyse, die echtes Hacking erfordert. Die Frage ist nicht mehr, ob KI hacken kann. Sondern wann man sie einsetzen sollte und wann definitiv nicht.

Was Wiz tatsächlich getestet hat

Wiz’ AI Cyber Model Arena, gestartet im Februar 2026, ist der bislang rigoroseste öffentliche Benchmark für KI-Agenten in der offensiven Sicherheit. Das Setup: 257 reale Aufgaben über fünf Domänen (Zero-Day-Entdeckung, CVE-Erkennung, API-Sicherheit, Web-Sicherheit und Cloud-Sicherheit). Jede Aufgabe läuft in isolierten Docker-Containern ohne Internetzugang, ohne CVE-Datenbanken und ohne externe Ressourcen. Die Bewertung ist deterministisch, kein LLM-as-Judge.

Die Web-Hacking-Ergebnisse waren eindrucksvoll. KI-Agenten identifizierten Tech-Stacks anhand subtiler Hinweise und mappten sofort bekannte Fehlkonfigurationen. Bei Aufgaben mit erkennbaren Mustern (SQL-Injection, SSRF, Authentication-Bypass) waren Agenten schneller als jeder Mensch. Die Kosten pro erfolgreichem Exploit lagen zwischen 1 und 50 Dollar.

Wo Agenten glänzten

Die Stärke der Agenten lag in der methodischen Abarbeitung bekannter Angriffsmuster. Gib einem Agenten eine Webanwendung mit einer dokumentierten Schwachstellenklasse, und er findet die spezifische Instanz schneller und günstiger als ein Mensch. Mehrstufige Reasoning-Ketten, die einen Menschen 30 Minuten manuelles Testing kosten, erledigte der Agent in Sekunden.

Wo Agenten versagten

Sobald Wiz von strukturierten Aufgaben zu realistischen, ungerichteten Szenarien wechselte, brach die Leistung ein. Im Incident-Investigation-Test lief der KI-Agent etwa eine Stunde, machte rund 500 Tool-Aufrufe und fand die Schwachstelle nicht. Der menschliche Forscher brauchte 5 Minuten mit breiterer Enumeration und strategischem Pivoting. Dem Agenten fehlte nicht das Wissen. Ihm fehlte die Fähigkeit, einen Schritt zurückzutreten, die gesamte Angriffsfläche zu überblicken und zu entscheiden, wo er zuerst suchen sollte.

Dieses Ergebnis bestätigt ein Muster aller Benchmarks 2026: Bei größerem Suchraum ohne spezifisches Ziel steigen die Kosten für das Auffinden von Schwachstellen um den Faktor 2 bis 2,5, und die Erfolgsquote sinkt deutlich.

Das 50-Dollar-gegen-100.000-Dollar-Problem

Fortune berichtete im Januar 2026, dass KI das Hacken “sehr billig” macht. Die Wiz-Daten bestätigen das mit konkreten Zahlen.

Traditionelle menschliche Penetrationstests kosten zwischen 5.000 und über 100.000 Dollar pro Engagement. Mittlere Aufträge (15.000 bis 50.000 Dollar) umfassen tiefere, menschengeführte Analysen. KI-basierte Alternativen wie XBOW, das Platz 1 der globalen HackerOne-Rangliste erreichte und über 1.000 Schwachstellen autonom fand, liefern vergleichbare Berichte ab 4.000 Dollar.

Für DACH-Unternehmen hat diese Kostenverschiebung besondere Brisanz. Laut dem CrowdStrike 2026 Global Threat Report stiegen KI-gestützte Angriffe um 89% gegenüber dem Vorjahr. Die durchschnittliche Breakout-Time für eCrime liegt bei 29 Minuten. Wenn Angreifer komplexe Exploits für den Preis eines API-Aufrufs fahren können, reicht das bisherige Bedrohungsmodell nicht mehr aus, besonders für Unternehmen, die unter den strengen Anforderungen der DSGVO und des EU AI Act operieren.

Tenzai: Top 1% ohne menschliche Beteiligung

Tenzais autonomer Pentesting-Agent landete in den Top 1% globaler CTF-Wettbewerbe Anfang 2026. Der Agent übertraf 99% der menschlichen Teilnehmer auf sechs großen Plattformen, darunter websec.fr, dreamhack.io und Lakera’s Agent Breaker. Er löste Aufgaben in den Kategorien Authentication-Bypass, Insecure Direct Object Reference, Application-Logic-Flaws und mehrstufige Exploitation-Ketten.

Das Besondere: Tenzais System analysiert Anwendungsverhalten statt Brute-Force-Scanning. Es untersucht Identitätsflüsse, Trust Boundaries und Systeminteraktionen, um subtile Schwachstellen zu finden. Das Unternehmen, gegründet von den Machern von Guardicore (von Akamai übernommen), sicherte sich eine Seed-Finanzierung von 75 Millionen Dollar von Greylock und Battery Ventures.

Wo Menschen weiterhin überlegen sind

Die Wiz-Daten zeigen ein Muster, das jeder Benchmark 2026 bestätigt hat: KI-Agenten sind Spezialisten, keine Generalisten. Sie brillieren in der Tiefe, scheitern aber in der Breite.

Menschliche Hacker bringen drei Fähigkeiten mit, die aktuelle KI-Agenten nicht haben:

Breite Enumeration. Ein menschlicher Pentester verbringt die erste Phase mit der Kartierung der gesamten Angriffsfläche: Subdomains, API-Endpunkte, Drittanbieter-Integrationen, Verhaltensmuster der Mitarbeiter. Er baut eine mentale Karte auf, bevor er zuschlägt. KI-Agenten springen direkt zur Exploitation, ohne diese Aufklärungsphase.

Strategisches Pivoting. Wenn ein Mensch feststellt, dass ein Angriffsvektor eine Sackgasse ist, ändert er seine gesamte Strategie. Er wechselt vielleicht von einem technischen Exploit zu Social Engineering oder von der Webanwendung zur CI/CD-Pipeline. KI-Agenten verharren zu lange bei ihrem initialen Ansatz. Die Wiz-Untersuchung zeigte das deutlich: 500 Tool-Aufrufe in die falsche Richtung.

Kontextuelles Urteilsvermögen. Menschen verstehen den organisatorischen Kontext. Sie wissen, dass der Staging-Server wahrscheinlich die gleichen Zugangsdaten wie die Produktion hat. Sie bemerken, dass das Unternehmen gerade ein Startup übernommen hat und die Integration vermutlich halb fertig ist. Diese Art von Situationsbewusstsein lässt sich nicht in einen Agent-Prompt engineeren.

Dark Readings Umfrage 2026 ergab, dass 48% der Sicherheitsexperten glauben, Agentic AI werde bis Jahresende der wichtigste Angriffsvektor sein. Aber dieselbe Umfrage räumt implizit ein, dass die gefährlichsten Angriffe weiterhin menschliche Kreativität in der Planungsphase erfordern.

Das Hybridmodell: Menschliche Führung, KI-Ausführung

Die überzeugendsten Daten liefert der Hack-The-Box-Benchmark vom März 2026, der bislang größte Seitenvergleich von KI-unterstützter und rein menschlicher Cybersecurity-Leistung. Getestet wurden 1.078 Teams (120 KI-unterstützt, 958 rein menschlich) über 36 Aufgaben in neun technischen Domänen.

Die Ergebnisse waren eindeutig. KI-unterstützte Elite-Teams erzielten eine 4,1-fache Produktivität gegenüber rein menschlichen Teams. Über alle Qualifikationsniveaus hinweg lag die Verbesserung bei 1,4x. Die Lösungsrate stieg um 70%: 27% gegenüber 16% bei den besten rein menschlichen Teams.

Aber: Die schwierigsten und neuartigsten Aufgaben erforderten weiterhin menschliches Urteilsvermögen. KI hob das Niveau deutlich an, verschob aber die Obergrenze kaum.

Das Nachwuchsproblem

Hack The Box wies auf ein Risiko hin, das die Branche noch nicht ernst genug nimmt: Wenn KI die Routinearbeit übernimmt, entwickeln Junior-Analysten nie die Intuition für die schweren Fälle. Man bildet keinen erfahrenen Sicherheitsexperten aus, indem KI seine ersten fünf Berufsjahre übernimmt.

Für den DACH-Raum ist das besonders relevant. Der Fachkräftemangel im Bereich IT-Sicherheit ist bereits akut. Laut Bitkom blieben 2025 über 149.000 IT-Stellen in Deutschland unbesetzt. Wenn KI-Werkzeuge die Einstiegspositionen überflüssig machen, ohne dass der Nachwuchs die Grundlagen lernt, entsteht in wenigen Jahren eine gefährliche Kompetenzlücke.

Was das für Ihre Sicherheitsstrategie bedeutet

Die Benchmark-Daten führen zu drei konkreten Handlungsempfehlungen.

Erstens: Setzen Sie KI-Agenten für strukturiertes Schwachstellen-Scanning ein. Für bekannte Schwachstellenklassen gegen definierte Ziele ist KI schneller und günstiger als Menschen, und zwar um Größenordnungen. Es gibt keinen Grund, 50.000 Dollar für einen Menschen zu zahlen, der Ihre SQL-Injection-Schwachstellen findet, wenn ein Agent das für 50 Dollar erledigt.

Zweitens: Behalten Sie Menschen für Strategie und neuartige Bedrohungen. Red-Team-Übungen, Incident Response und Adversary Simulation erfordern weiterhin menschliches Urteilsvermögen. Die Wiz-Daten sind eindeutig: Agenten können die strategische Ebene nicht ersetzen.

Drittens: Investieren Sie jetzt in den Hybrid-Workflow. Der 4,1-fache Produktivitätsgewinn von Hack The Box ist keine Theorie. Er wurde an 1.078 Teams gemessen. Sicherheitsteams, die menschliche Analysten mit KI-Agenten kombinieren, werden beide Reinformen übertreffen. Aber das erfordert Training: Ihr Team muss lernen, KI effektiv zu dirigieren.

Das Zeitalter der reinen KI-Tests oder reinen Menschentests geht zu Ende. Die Benchmarks haben gesprochen: Keine Seite gewinnt allein.

Häufig gestellte Fragen

Können KI-Agenten besser hacken als Menschen?

Bei strukturierten Szenarien mit bekannten Schwachstellenklassen ja. Wiz’ Benchmark 2026 zeigte, dass KI-Agenten 9 von 10 Web-Hacking-Aufgaben für unter 50 Dollar lösten. Aber in realistischen, ungerichteten Szenarien übertreffen menschliche Hacker KI-Agenten deutlich. In der Wiz-Studie machte ein KI-Agent 500 Tool-Aufrufe in einer Stunde, ohne eine Schwachstelle zu finden, die ein Mensch in 5 Minuten entdeckte.

Wie viel günstiger ist KI-Penetrationstesting als menschliche Pentester?

Für strukturierte Schwachstellenerkennung kosten KI-Agenten zwischen 1 und 50 Dollar pro Exploit an LLM-Kosten, verglichen mit 5.000 bis über 100.000 Dollar für traditionelle menschliche Penetrationstests. KI-basierte Pentesting-Plattformen wie XBOW bieten Berichte ab 4.000 Dollar, verglichen mit 10.000 bis 35.000 Dollar für vergleichbare manuelle Assessments.

Was ist die Wiz AI Cyber Model Arena?

Die Wiz AI Cyber Model Arena, gestartet im Februar 2026, ist ein Benchmark-Suite mit 257 realen Cybersecurity-Aufgaben über Zero-Day-Entdeckung, CVE-Erkennung, API-Sicherheit, Web-Sicherheit und Cloud-Sicherheit. Jede Agent-Modell-Kombination läuft in isolierten Docker-Containern ohne Internetzugang mit deterministischer Bewertung.

Wie viel produktiver sind KI-unterstützte Sicherheitsteams?

Laut dem Hack-The-Box-Benchmark vom März 2026 mit 1.078 Teams erzielten KI-unterstützte Elite-Cybersecurity-Teams eine 4,1-fache Produktivität gegenüber rein menschlichen Teams. Über alle Qualifikationsniveaus betrug die Verbesserung 1,4x. KI-unterstützte Teams hatten zudem eine 70% höhere Lösungsrate (27% vs. 16%).

Wird KI menschliche Penetrationstester ersetzen?

Nicht in absehbarer Zukunft. Benchmark-Daten zeigen durchgehend, dass KI-Agenten bei breiter Enumeration, strategischem Pivoting und kontextuellem Urteilsvermögen versagen. Das Hybridmodell (menschliche Führung mit KI-Ausführung) übertrifft sowohl reine KI- als auch reine Menschen-Ansätze. KI wird jedoch die routinemäßigen, strukturierten Teile des Pentestings übernehmen, sodass sich menschliche Tester auf Strategie und neuartige Bedrohungen konzentrieren können.

Was Wiz tatsächlich getestet hat#

Wo Agenten glänzten#

Wo Agenten versagten#

Das 50-Dollar-gegen-100.000-Dollar-Problem#

Tenzai: Top 1% ohne menschliche Beteiligung#

Wo Menschen weiterhin überlegen sind#

Das Hybridmodell: Menschliche Führung, KI-Ausführung#

Das Nachwuchsproblem#

Was das für Ihre Sicherheitsstrategie bedeutet#

Häufig gestellte Fragen#

Können KI-Agenten besser hacken als Menschen?#

Wie viel günstiger ist KI-Penetrationstesting als menschliche Pentester?#

Was ist die Wiz AI Cyber Model Arena?#

Wie viel produktiver sind KI-unterstützte Sicherheitsteams?#

Wird KI menschliche Penetrationstester ersetzen?#