Shannon: Der Open-Source-KI-Agent, der Web-Apps mit 96 % Trefferquote hackt

Foto von ThisIsEngineering auf Pexels (freie Lizenz) Source

Ein Open-Source-KI-Agent nutzt jetzt Web-Anwendungs-Schwachstellen mit einer Erfolgsquote von 96 % im XBOW Benchmark aus. Shannon, entwickelt von Keygraph, unterstützt keinen menschlichen Pentester. Der Agent führt die gesamte Angriffskette autonom durch: Aufklärung, Schwachstellenidentifikation, Payload-Generierung, Exploitation und Verifizierung. Kein Mensch im Loop. XBOWs eigener proprietärer Agent erreichte 86 % im selben Benchmark. Ein Open-Source-Projekt schlägt das Tool des Benchmark-Erstellers um 10 Prozentpunkte.

Diese Lücke hat Konsequenzen. Wenn der beste öffentlich verfügbare Exploitation-Agent kommerzielle Alternativen übertrifft, ändern sich die Rahmenbedingungen für Web-Anwendungssicherheit dauerhaft. Jeder mit einem GitHub-Account und API-Schlüsseln hat jetzt Zugang zu Exploitation-Fähigkeiten, die vor sechs Monaten noch Jahre an Spezialausbildung erforderten.

So funktioniert Shannon: Hierarchische Agenten statt Prompt Engineering

Shannon ist kein Wrapper um ChatGPT mit einem “Hacke diese Website”-Prompt. Der Agent nutzt eine hierarchische Multi-Agenten-Architektur, genau das Designmuster, das XBOWs eigene Forschung als entscheidend für effektive autonome Exploitation identifiziert hat.

Der Planer-Executor-Split

An der Spitze steht ein Planer-Agent: ein LLM-gesteuerter Orchestrator, der ein Angriffsziel in eine Strategie zerlegt. Darunter arbeiten spezialisierte Executor-Subagenten an einzelnen Aufgaben: einer durchsucht Webseiten und analysiert HTML, ein zweiter sendet HTTP-Requests und interpretiert Antworten, ein dritter generiert und mutiert Exploit-Payloads.

Der Planer behält den Zustand über die gesamte Angriffskette bei. Wenn der XSS-Payload gefiltert wird, startet er nicht von vorne. Er weist den Payload-Subagenten an, eine andere Kodierung zu versuchen, während der Browser-Subagent alternative Injektionspunkte kartiert. Das ist dieselbe Observe-Reason-Act-Schleife, die agentic AI Frameworks in anderen Bereichen effektiv macht, hier angewandt auf offensive Sicherheit.

Warum hierarchisch besser ist als monolithisch

XBOWs eigene Forschung bestätigt den Unterschied. Ein einzelner monolithischer Agent scheitert an mehrstufigen Exploits, weil er den Kontext verliert. Nachdem er 40 Endpunkte enumeriert und 200 Payloads getestet hat, ist das Kontextfenster gesättigt. Das hierarchische Design löst dieses Problem: Der Planer hält den strategischen Kontext, während Subagenten die taktische Ausführung mit frischen Kontextfenstern übernehmen.

Das praktische Ergebnis: Shannon kettet Schwachstellen aneinander. Er findet eine SSRF-Schwachstelle, nutzt sie, um auf interne Dienste zuzugreifen, entdeckt dort eine SQL-Injection und extrahiert Daten. Mehrstufige Exploitation, die einen Junior-Pentester Stunden kosten würde, passiert in Minuten.

Was Shannon konkret ausnutzt

Der XBOW Benchmark deckt die Schwachstellenklassen ab, die in der Praxis relevant sind: SQL-Injection (Union-basiert, Blind, zeitbasiert), Cross-Site-Scripting (reflektiert, gespeichert, DOM-basiert), Server-Side Request Forgery, Authentifizierungsumgehungen, File-Inclusion- und Upload-Schwachstellen sowie Command-Injection. Shannon bewältigt Level 1 Einzelschritt-Exploits und Level 2 Mehrschritt-Ketten, die das Kombinieren mehrerer Schwachstellen in Sequenz erfordern.

96 % über diese Kategorien hinweg bedeutet: Shannon scheitert bei etwa 1 von 25 Herausforderungen. Die 4 %, die er verfehlt, betreffen typischerweise neuartige Schwachstellenklassen oder stark angepasste Anwendungslogik, die nicht zu Mustern passt, die das LLM in seinen Trainingsdaten gesehen hat.

Der XBOW Benchmark: Warum diese Zahlen relevant sind

Der XBOW Benchmark ist kein CTF-Wettbewerb mit Puzzleaufgaben. XBOW stellt realistische Webanwendungen mit bekannten Schwachstellen als Live-Ziele bereit. Der Agent bekommt eine URL und ein Ziel. Keine Hinweise, kein Quellcode-Zugang, keine Hilfestellung.

Benchmark-Struktur

XBOW organisiert Herausforderungen in aufsteigende Schwierigkeitsstufen. Level 1 testet Einzelschritt-Exploitation: die SQL-Injection-Eingabe finden, den Payload erstellen, die Flagge extrahieren. Level 2 erfordert Verkettung: eine Authentifizierungsumgehung entdecken, den erweiterten Zugang nutzen, um eine SSRF zu finden, zu einem internen Dienst pivotieren und dort eine Deserialisierungs-Schwachstelle ausnutzen. Jedes Level fügt Komplexität hinzu, die weniger ausgefeilte Agentenarchitekturen zum Scheitern bringt.

Shannon im Vergleich

Agent	XBOW-Score	Typ	Architektur
Shannon (Keygraph)	96 %	Open Source	Hierarchischer Multi-Agent
XBOW Agent	86 %	Proprietär	Hierarchischer Multi-Agent
XBOW (HackerOne #1)	1.000+ Vulns	Proprietär	Produktions-Bug-Bounty

XBOWs eigener Agent erreichte Platz 1 auf dem globalen HackerOne-Leaderboard durch das Finden von über 1.000 Schwachstellen in echten Bug-Bounty-Programmen, darunter eine zuvor unbekannte Schwachstelle in Palo Alto Networks’ GlobalProtect VPN. Shannons höherer Benchmark-Score bedeutet nicht zwangsläufig, dass er XBOW auf Live-Zielen übertreffen würde. Aber er zeigt, dass die Open-Source-Community proprietäre Forschung auf Architekturebene erreichen kann.

Kontext: Der breitere KI-Pentesting-Markt

Shannon betritt einen vollen Markt. Horizon3.ais NodeZero hat über 225.000 autonome Pentests mit 5.200+ Kunden durchgeführt. Pentera startete “Vibe Red Teaming” mit natürlichsprachlicher Teststeuerung. Stanfords ARTEMIS-Agent übertraf 9 von 10 menschlichen Pentestern in einem Live-Universitätsnetzwerk für 18 $/Stunde.

Was Shannon unterscheidet: Er ist vollständig Open Source. Man kann jede Zeile Code lesen, die Prompts verstehen, die Agentenarchitektur modifizieren und alles auf eigener Infrastruktur betreiben. Kein Enterprise-Vertriebsgespräch nötig.

Open-Source-Offensive-KI: Das Dual-Use-Problem

Shannons Veröffentlichung eröffnet eine Debatte neu, die die Security-Community nie abschließend gelöst hat. Metasploit, Burp Suite und nmap begannen alle als Tools, die sowohl für Angriffe als auch für Verteidigung eingesetzt werden konnten. Shannon folgt demselben Muster, aber die Einstiegshürde für effektive Nutzung liegt niedriger. Metasploit erfordert Verständnis von Exploitation-Konzepten. Shannon erfordert einen GitHub-Account und API-Schlüssel.

Das Argument für Open Source

Keygraphs Argument folgt einem etablierten Präzedenzfall: Verteidiger müssen die Fähigkeiten von Angreifern verstehen. Wenn ein Exploitation-Agent mit 96 % Trefferquote existiert, müssen Organisationen ihre Verteidigung dagegen testen. Ihn proprietär zu halten, bedeutet nur, dass Angreifer ihren eigenen bauen, während Verteidiger blind bleiben.

Open Source ermöglicht außerdem Verifizierung. Wenn XBOW einen Benchmark-Score veröffentlicht, kann die Community ihn reproduzieren. Wenn ein Anbieter “KI-gestützte Schwachstellenerkennung” behauptet, bietet Shannon einen konkreten Vergleichspunkt. Der Code ist die Behauptung.

Das Gegenargument

Vor Shannon erforderte der Bau eines autonomen Exploitation-Agenten erhebliche ML-Engineering-Expertise, Zugang zu Trainingsdaten und Monate an Entwicklung. Jetzt reicht git clone. Die Kompetenzhürde, die autonome Exploitation in den Händen gut finanzierter Forschungslabore und staatlicher Akteure hielt, ist verschwunden.

Reddits r/netsec-Community warf berechtigte Bedenken auf: Der XBOW Benchmark ist zwar realistisch, aber immer noch eine kontrollierte Umgebung. Produktions-Webanwendungen haben WAFs, Rate-Limiting, CAPTCHAs und Monitoring, die der Benchmark nicht abbildet. Shannons 96 % im Labor könnten in der Praxis deutlich weniger sein. Aber “deutlich weniger als 96 %” ist immer noch eine Menge.

Regulatorische Implikationen für DACH-Unternehmen

Der EU AI Act klassifiziert KI-Systeme nach Risikostufen. Ein autonomes Exploitation-Tool ohne menschliche Aufsicht könnte unter die Hochrisiko- oder sogar verbotene Kategorie fallen, abhängig vom Einsatzszenario. Unternehmen, die Shannon für internes Pentesting einsetzen, müssen seine Nutzung unter Artikel 6 Risikomanagement-Pflichten dokumentieren.

Für deutsche Unternehmen gilt zusätzlich § 202a StGB (Ausspähen von Daten): Der Einsatz gegen Systeme ohne ausdrückliche schriftliche Genehmigung ist strafbar. Auch die DSGVO ist relevant: Wenn Shannon bei Tests personenbezogene Daten extrahiert, muss das in der Datenschutz-Folgenabschätzung berücksichtigt werden. Der BSI-Grundschutz empfiehlt zudem die Dokumentation aller Penetrationstest-Tools und deren Ergebnisse.

Was das für die Web-Anwendungssicherheit Ihres Unternehmens bedeutet

Wenn Sie Webanwendungen betreiben, hat sich die Rechnung geändert. Die Frage ist nicht mehr “Wird jemand kompetent genug sein, unsere SQL-Injection zu finden?” Sondern: “Wird jemand ein Open-Source-Skript ausführen, das sie automatisch findet?”

Sofortmaßnahmen

Shannon gegen die eigenen Anwendungen laufen lassen. Wenn ein Open-Source-Tool ohne jede Anpassung Schwachstellen findet, werden Angreifer das auch tun. Das ist der direkteste Weg, die eigene Gefährdung zu verstehen. Keygraph stellt Installationsanleitungen für den kontrollierten Betrieb bereit.

Die eigene WAF als unzureichend betrachten. Shannon generiert Exploit-Payloads iterativ und mutiert sie, bis sie Filter umgehen. Statische WAF-Regeln, die bekannte Payloads blockieren, stoppen keinen Agenten, der neuartige Variationen generiert. Investieren Sie in verhaltensbasierte Erkennung, die Exploitation-Muster unabhängig von der Payload-Kodierung identifiziert.

Auf kontinuierliches Testing umstellen. Jährliche Pentests machten Sinn, als Exploitation menschliche Experten zu 200 €/Stunde erforderte. Wenn dieselbe Abdeckung API-Credits kostet, gibt es keinen Grund, automatisierte Exploitation-Tests nicht wöchentlich oder nach jedem Deployment durchzuführen.

Auf autonomes Scanning überwachen. Shannons Traffic-Muster unterscheiden sich von traditionellen Schwachstellenscannern. Er feuert nicht tausende identischer Requests ab. Er sendet gezielte, kontextuell passende Anfragen, die sich basierend auf Antworten anpassen. Die Erkennungsregeln müssen das berücksichtigen.

Das größere Bild

DARPAs AI Cyber Challenge (AIxCC) hat gezeigt, dass KI Schwachstellen sowohl finden als auch beheben kann. XBOWs eigene Autofix-Fähigkeit zeigt denselben Dual-Use in der Praxis: Dieselbe Agentenarchitektur, die eine SQL-Injection entdeckt, kann die parametrisierte Query generieren, die sie behebt. Die Zukunft ist nicht “KI bricht alles.” Sondern: “KI bricht und repariert schneller als Menschen auf beiden Seiten.”

Shannon ist nach Claude Shannon benannt, dem Vater der Informationstheorie. Der ursprüngliche Shannon bewies, dass jeder Kommunikationskanal einen maximalen zuverlässigen Durchsatz hat. Der KI-Shannon beweist etwas Ähnliches über Web-Sicherheit: Jede Webanwendung hat ein maximal erreichbares Sicherheitsniveau, und autonome Agenten konvergieren von der Angriffs- und der Verteidigungsseite gleichzeitig darauf zu.

Häufig gestellte Fragen

Was ist Shannon KI und wie funktioniert der Agent?

Shannon ist ein Open-Source-KI-Agent von Keygraph, der Web-Anwendungs-Schwachstellen autonom findet und ausnutzt. Er verwendet eine hierarchische Multi-Agenten-Architektur mit einem Planer-Agenten, der Angriffe in Teilaufgaben zerlegt, und spezialisierten Executor-Subagenten für Browsing, HTTP-Requests und Payload-Generierung. Im XBOW Benchmark erreicht er eine Erfolgsquote von 96 %.

Was ist der XBOW Benchmark für KI-Hacking-Agenten?

Der XBOW Benchmark ist eine standardisierte Testsuite, die die Fähigkeit von KI-Agenten misst, Web-Anwendungs-Schwachstellen autonom zu entdecken und auszunutzen. Er stellt realistische Webanwendungen mit bekannten Schwachstellen (SQL-Injection, XSS, SSRF, Authentifizierungsumgehungen usw.) als Live-Ziele bereit. Die Herausforderungen sind in aufsteigende Schwierigkeitsstufen organisiert.

Ist der Einsatz von Shannon in Deutschland legal?

Shannon darf nur für autorisierte Sicherheitstests auf Systemen eingesetzt werden, die man besitzt oder für die eine ausdrückliche schriftliche Genehmigung vorliegt. Der Einsatz gegen Systeme ohne Autorisierung ist nach § 202a StGB (Ausspähen von Daten) strafbar. Unternehmen, die Shannon für internes Pentesting nutzen, müssen dies unter den Risikomanagement-Pflichten des EU AI Acts (Artikel 6) dokumentieren und bei der DSGVO-konformen Datenschutz-Folgenabschätzung berücksichtigen.

Wie schneidet Shannon im Vergleich zu kommerziellen KI-Pentesting-Tools ab?

Shannon erreichte 96 % im XBOW Benchmark, verglichen mit XBOWs eigenem proprietären Agenten mit 86 %. Kommerzielle Plattformen wie Horizon3.ai NodeZero und Pentera bieten breitere Abdeckung (Netzwerk, Active Directory), Enterprise-Integrationen und Compliance-Reporting. Shannons Vorteil: vollständig Open Source, kostenlos und auf Web-Anwendungen fokussiert. Nachteil: keine Enterprise-Features, kein Support, keine breitere Angriffsflächen-Abdeckung.

Welche Schwachstellen kann Shannon autonom finden?

Shannon entdeckt und nutzt autonom SQL-Injection (Union-basiert, Blind, zeitbasiert), Cross-Site-Scripting (reflektiert, gespeichert, DOM-basiert), Server-Side Request Forgery (SSRF), Authentifizierungs- und Autorisierungsumgehungen, File-Inclusion- und Upload-Schwachstellen sowie Command-Injection aus. Er kann mehrere Schwachstellen in Sequenz verketten für mehrstufige Exploitation.

So funktioniert Shannon: Hierarchische Agenten statt Prompt Engineering#

Der Planer-Executor-Split#

Warum hierarchisch besser ist als monolithisch#

Was Shannon konkret ausnutzt#

Der XBOW Benchmark: Warum diese Zahlen relevant sind#

Benchmark-Struktur#

Shannon im Vergleich#

Kontext: Der breitere KI-Pentesting-Markt#

Open-Source-Offensive-KI: Das Dual-Use-Problem#

Das Argument für Open Source#

Das Gegenargument#

Regulatorische Implikationen für DACH-Unternehmen#

Was das für die Web-Anwendungssicherheit Ihres Unternehmens bedeutet#

Sofortmaßnahmen#

Das größere Bild#

Häufig gestellte Fragen#

Was ist Shannon KI und wie funktioniert der Agent?#

Was ist der XBOW Benchmark für KI-Hacking-Agenten?#

Ist der Einsatz von Shannon in Deutschland legal?#

Wie schneidet Shannon im Vergleich zu kommerziellen KI-Pentesting-Tools ab?#

Welche Schwachstellen kann Shannon autonom finden?#