Jeder siebte Pull Request auf GitHub hat mittlerweile einen KI-Reviewer. Vor einem Jahr war es jeder neunzigste. Der Wandel kam nicht durch ein einzelnes Produkt-Launch. Er kam durch eine architektonische Entscheidung: das Repository selbst als Ausführungsumgebung für KI-Agenten zu behandeln.
GitHub Next, das Forschungslabor des Unternehmens, veröffentlichte das Framework hinter dieser Entscheidung am 5. Februar 2026. Sie nennen es Continuous AI: natürlichsprachliche Regeln kombiniert mit agentischem Reasoning, kontinuierlich im Repository über GitHub Actions ausgeführt. Kein Chatbot. Keine Autovervollständigung. Eine neue Kategorie von CI, die Entscheidungen trifft, die YAML-Pipelines nie treffen konnten.
Was Continuous AI wirklich bedeutet
Klassische CI ist deterministisch. Tests bestehen oder scheitern. Builds laufen oder brechen. Linter melden Verstöße gegen statische Regelsätze. Continuous AI zielt auf Arbeit, die sich nicht als Regel oder Flussdiagramm ausdrücken lässt: Code Review, das Absichten versteht. Dokumentation, die mit Code-Änderungen synchron bleibt. Issue-Triage per NLP statt statischer Keyword-Filter. Fehleranalyse, die erklärt, warum ein CI-Lauf gescheitert ist, statt nur den Stacktrace auszugeben.
Idan Gazit, Leiter von GitHub Next, formuliert es so: “Jedes Mal, wenn sich etwas nicht als Regel oder Flussdiagramm ausdrücken lässt, ist das ein Ort, an dem KI enorm hilfreich wird.” Die Erkenntnis: Die meisten Entwickler-Workflows laufen bereits auf Event-Triggern (Push, Pull Request, Zeitplan). Was fehlt, ist Reasoning am Trigger-Punkt.
GitHub Next definiert acht Kategorien von Continuous AI:
- Continuous Documentation: Erkennung, wenn Code und Docs auseinanderdriften, dann automatische Updates generieren
- Continuous Code Improvement: Performance-Anti-Patterns wie Regex-Kompilierung in Schleifen flaggen
- Continuous Triage: Issues per NLP labeln und routen statt über statisches Keyword-Matching
- Continuous Summarization: Wöchentliche Projekt-Zusammenfassungen aus Commits, PRs und CI-Ergebnissen
- Continuous Fault Analysis: CI-Fehler in Klartext erklären, nicht nur Stacktraces drucken
- Continuous Quality: Coding-Standards durchsetzen, die über Linter-Fähigkeiten hinausgehen
- Continuous Accessibility: Barrierefreiheits-Regressionen bei jedem Deploy erkennen
- Continuous Team Motivation: Meilensteine feiern (ja, wirklich)
Jede Kategorie läuft als GitHub Action, ausgelöst durch Repository-Events, verarbeitet von einem LLM und eingeschränkt durch explizite Berechtigungen. Das Ergebnis ist immer ein Artefakt, das Entwickler bereits kennen: ein PR-Kommentar, ein Issue-Label, ein Commit-Vorschlag.
Das gh-aw-CLI: Agenten-Regeln in Markdown schreiben
Der technische Kern von Continuous AI ist gh aw, ein CLI-Tool von GitHub Next, das natürlichsprachliche Regeln in GitHub-Actions-Workflows übersetzt. Der Ablauf hat drei Schritte.
Schritt 1: Regeln in Markdown schreiben
Man erstellt ein .github/agents/-Verzeichnis und legt Markdown-Dateien ab. Jede Datei ist eine Regel:
# Bug-Reports automatisch labeln
Wenn ein neues Issue geöffnet wird, lies Titel und Beschreibung.
Wenn es einen Absturz, unerwartetes Verhalten oder einen Fehler beschreibt,
füge das Label "bug" hinzu. Wenn es ein Feature-Request ist, füge "enhancement" hinzu.
Keine YAML-Syntax. Keine Regex-Matcher. Klartext auf Deutsch, Englisch oder jeder anderen Sprache, die das zugrundeliegende Modell beherrscht.
Schritt 2: Kompilieren in sichere Workflows
gh aw compile wandelt die Markdown-Regeln in .lock.yml-Dateien um: standardmäßige GitHub-Actions-Workflows mit eingebautem KI-Reasoning. Die kompilierte Ausgabe erzwingt schreibgeschützte Berechtigungen als Standard, sandboxed Ausführung, Tool-Allowlisting und Netzwerk-Isolation.
Schritt 3: Auslösung über GitHub Actions
Die kompilierten Workflows feuern auf Standard-GitHub-Events: pull_request, issues, push, schedule. Das LLM verarbeitet den Event-Payload gegen die Regel, erzeugt Output und schreibt ihn als PR-Kommentar, Issue-Label oder Commit-Vorschlag zurück.
Unterstützte KI-Engines sind Copilot, Claude, Codex und benutzerdefinierte Prozessoren. Das Modell kann pro Regel gewählt werden.
Copilot, Claude und Codex als Repository-Agenten
Das Continuous-AI-Framework ist modellunabhängig, aber drei Agenten haben bereits First-Class-GitHub-Integration.
GitHub Copilot Coding Agent
Der Copilot Coding Agent funktioniert wie ein Junior-Entwickler, dem man Issues zuweist. Man taggt ein Issue mit @copilot oder erwähnt ihn in VS Code mit @github Erstelle einen Pull Request zum Refactoring dieses Query-Generators. Der Agent startet eine VM, klont das Repository, analysiert die Codebasis mittels RAG auf Basis von GitHubs Code-Search-Index und pusht Commits in einen Draft-PR.
James Zabinski, DevEx-Lead bei EY, beschreibt den Workflow: “Der Copilot Coding Agent eröffnet menschlichen Entwicklern die Möglichkeit, ihr eigenes agenten-gesteuertes Team zu haben, das parallel an Aufgaben arbeitet.”
Die entscheidende Einschränkung: Der Agent mergt nie Code. Er erstellt PRs. Gazit formuliert es so: “Der PR ist das bestehende Artefakt, bei dem Entwickler erwarten, Arbeit zu reviewen.” Menschliche Genehmigung ist erforderlich, bevor eine Änderung auf einem geschützten Branch landet.
Claude und Codex auf GitHub
Seit dem 4. Februar 2026 stehen Anthropics Claude und OpenAIs Codex als Coding-Agenten für Copilot-Pro+- und Enterprise-Kunden bereit. Kein zusätzliches Abo nötig. Man weist ihnen Issues genauso zu wie Copilot, oder erwähnt @claude bzw. @codex für Review-Feedback. Jede Session verbraucht eine Premium-Anfrage.
Damit ist GitHub die erste große Plattform, auf der drei konkurrierende KI-Modelle als gleichberechtigte Agenten im selben Repository arbeiten, alle gesteuert durch dasselbe Berechtigungsmodell, alle mit demselben Artefakt-Typ: Pull Requests.
Die Zahlen: KI-Review ist bereits Mainstream
Eine Analyse von 40,3 Millionen Pull Requests ergab, dass die KI-Agent-Beteiligung an PRs von 1,1 % im Februar 2024 auf 14,9 % im November 2025 gestiegen ist. Eine Vervierzehnfachung in 18 Monaten. Drei Agenten kontrollieren 72 % aller KI-Review-Aktivitäten: CodeRabbit (~33 %), Copilot (~29 %) und Gemini (~10 %).
Die Produktivitätsdaten sind ebenso eindeutig. Eine Studie mit 4.800 Entwicklern ergab, dass Aufgaben mit Copilot 55 % schneller abgeschlossen werden. Die PR-Durchlaufzeit sank von 9,6 Tagen auf 2,4 Tage bei Organisationen mit automatisiertem Review: eine Reduktion um 75 %. Copilot generiert im Durchschnitt 46 % des Codes, den seine Nutzer schreiben, bei Java-Entwicklern sogar 61 %.
GitHub Next validierte die Wirtschaftlichkeit mit einem eigenen Experiment: Sie generierten 1.400 Tests in 45 Tagen für rund 80 Dollar an LLM-Token-Kosten bei nahezu vollständiger Abdeckung. Das ist das Kostenprofil, das Continuous AI auch für kleine Teams wirtschaftlich tragfähig macht.
Eine akademische Studie mit 8.031 KI-generierten PRs zeigte, dass Agenten CI/CD-Konfigurationen in nur 3,25 % aller Änderungen modifizieren. Der überwiegende Teil der Agenten-Arbeit ist Anwendungscode, nicht Infrastruktur. GitHub Actions macht 96,77 % aller CI/CD-Änderungen durch KI-Agenten aus. Das bedeutet: Agenten können mit Jenkins, CircleCI oder anderen CI-Systemen kaum umgehen. PRs mit CI/CD-Änderungen wurden zu 67,77 % gemergt, verglichen mit 71,80 % bei Nicht-CI/CD-Änderungen, was darauf hindeutet, dass Reviewer bei Pipeline-Konfigurationen vorsichtiger sind.
Wo Continuous AI (noch) scheitert
GitHubs eigene Dokumentation ist erfrischend ehrlich über die Grenzen. Agent Mode ist nicht geeignet für das Ändern von Domain-Invarianten ohne menschliches Review, das Neudesign von Service-Grenzen, das Ersetzen von Logik, die institutionelles Wissen erfordert, oder das Debugging tiefer Laufzeitprobleme.
Die Sicherheitsfläche ist real. Jeder Agent ist eine Identität mit Zugangsdaten. Nur etwas mehr als die Hälfte des KI-generierten Codes gilt als korrekt und sicher. Bei mehrdeutigen Prompts optimieren LLMs auf den kürzesten Weg zu einem bestehenden Test, selbst wenn das bedeutet, unsichere Funktionen zu verwenden. Quellcode macht 42 % aller KI-risikobezogenen Datenschutzverstöße aus, weil Entwickler proprietären Code an KI-Dienste senden, ohne zu prüfen, was übertragen wird.
GitHub hat Sicherheitsmechanismen eingebaut: Agenten laufen standardmäßig schreibgeschützt, können nicht auf Default-Branches pushen (nur auf Branches, die sie selbst erstellen), benötigen menschliche Genehmigung vor CI/CD-Workflow-Ausführung und haben eingeschränkten Internetzugang. Der Auftraggeber kann den eigenen Agent-PR nicht selbst genehmigen. Diese Einschränkungen sind sinnvoll, funktionieren aber nur, wenn Teams sie tatsächlich durchsetzen.
Die 3,25 %-CI/CD-Änderungsrate offenbart auch eine tiefere Lücke. Agenten sind gut darin, Anwendungscode zu schreiben. Sie tun sich schwer mit Infrastruktur, Build-Systemen und dem Bindeglied zwischen Repository und Produktion. Wenn der Engpass nicht Feature-Code ist, sondern flaky Tests oder kaputte Deploys, wird Continuous AI das vorerst nicht lösen.
Wie GitLab und Atlassian dagegen halten
GitHub ist nicht die einzige Plattform, die agentische CI baut. GitLab Duo enthält jetzt Merge-Request-Zusammenfassungen, Root-Cause-Analyse und autonome Workflow-Agenten in den Premium- und Ultimate-Tarifen. Duos Vorteil: Es erbt GitLabs DevSecOps-Stack. Jeder KI-Vorschlag wird automatisch gegen SAST/DAST-Gates und Lizenzrichtlinien geprüft, während Copilot auf externe Scanner wie SonarQube oder CodeQL angewiesen ist.
Atlassians Rovo Dev geht einen anderen Weg. Es versteht Projektkontext aus Jira, Confluence und Bitbucket zusammen. Wenn ein Pipeline-Test fehlschlägt, triagiert Rovo Dev den Fehler, versucht eine Behebung, generiert einen PR und startet den Merge erneut. Natürlichsprachliche Pipeline-Schritte in Bitbucket Cloud kommen 2026, die statische Skripte mit KI-Reasoning ergänzen.
Das Wettbewerbsmuster ist eindeutig: Jede große DevOps-Plattform konvergiert auf dieselbe Idee. Das Repository und seine umliegenden Tools werden zum Arbeitsplatz des Agenten. Der PR wird zum Ausgabeformat. Menschliches Review wird zum Kontrollmechanismus. GitHubs Vorteil ist die Skalierung (4,7 Millionen zahlende Copilot-Nutzer, 90 % der Fortune-100-Unternehmen) und die Tatsache, dass ihr Agenten-Berechtigungsmodell bereits mehrere konkurrierende KI-Modelle in einem Workflow unterstützt.
Für DACH-Unternehmen kommt eine zusätzliche Dimension hinzu: die DSGVO. Jeder KI-Agent, der Code verarbeitet, ist potenziell ein Auftragsverarbeiter. Wer Copilot, Claude oder Codex auf proprietärem Code einsetzt, braucht klare Vereinbarungen zur Datenverarbeitung und sollte prüfen, ob die GitHub-Server in der EU stehen oder ob Daten in die USA übertragen werden.
So starten Sie mit Continuous AI
Wenn Sie Continuous AI in einem bestehenden Repository ausprobieren möchten, ist der Einstieg unkompliziert:
- CLI installieren:
gh extension install github/gh-aw - Regelverzeichnis erstellen:
.github/agents/im Repository - Erste Regel schreiben: Fangen Sie mit etwas Risikoarmem an, etwa automatisches Issue-Labeling oder PR-Zusammenfassungen
- Kompilieren:
gh aw compilegeneriert den Actions-Workflow - Workflow-Datei mergen und beim nächsten Event-Trigger laufen lassen
Das awesome-continuous-ai-Repository katalogisiert das gesamte Ökosystem: Tools wie Penify.dev für Dokumentation, DiffBlue für automatisiertes Testen, CodeRabbit für Review und GenAIScript für benutzerdefinierte Continuous-AI-Workflows in JavaScript.
Beginnen Sie mit schreibgeschützten Aufgaben. Triage, Zusammenfassung und Dokumentation sind sicher. Wechseln Sie zu Code-Vorschlägen, sobald Sie Vertrauen in die Modellqualität für Ihre spezifische Codebasis haben. Und behalten Sie Menschen im Genehmigungsprozess für alles, was Production-Branches betrifft.
Häufig gestellte Fragen
Was ist Continuous AI auf GitHub?
Continuous AI ist ein Framework von GitHub Next, das natürlichsprachliche Regeln mit agentischem Reasoning kombiniert und kontinuierlich in Repositories über GitHub Actions ausführt. Anders als klassische CI, die deterministische Aufgaben erledigt (Tests bestehen/scheitern), übernimmt Continuous AI urteilsbasierte Arbeit wie Code Review, Dokumentations-Updates, Issue-Triage und Fehleranalyse mittels LLMs.
Wie funktioniert das gh-aw-CLI-Tool?
Das gh-aw-CLI von GitHub Next hat einen Drei-Schritte-Workflow: natürlichsprachliche Regeln in Markdown-Dateien im Verzeichnis .github/agents/ schreiben, diese mit gh aw compile in sichere GitHub-Actions-Workflows kompilieren und automatisch auf Repository-Events wie Pull Requests, Pushes oder Zeitpläne ausführen lassen. Unterstützte KI-Engines sind Copilot, Claude und Codex.
Können Claude und Codex direkt auf GitHub als Agenten arbeiten?
Ja. Seit dem 4. Februar 2026 stehen Anthropics Claude und OpenAIs Codex als Coding-Agenten auf GitHub für Copilot-Pro+- und Enterprise-Kunden in der öffentlichen Preview bereit. Man kann ihnen Issues zuweisen, @claude oder @codex für Review-Feedback erwähnen, und jede Session verbraucht eine Premium-Anfrage. Kein zusätzliches Abo nötig.
Welcher Anteil der GitHub-Pull-Requests hat KI-Reviewer?
Eine Analyse von 40,3 Millionen Pull Requests ergab, dass die KI-Agent-Beteiligung von 1,1 % im Februar 2024 auf 14,9 % im November 2025 gestiegen ist. Das bedeutet, etwa jeder siebte PR hat mittlerweile einen KI-Reviewer. Die drei führenden KI-Review-Agenten sind CodeRabbit (33 % Anteil), Copilot (29 %) und Gemini (10 %).
Ist Continuous AI sicher für Produktions-Repositories?
GitHub hat Sicherheitsmechanismen eingebaut: Agenten laufen standardmäßig schreibgeschützt, können nicht auf Default-Branches pushen, benötigen menschliche Genehmigung vor CI/CD-Workflow-Ausführung und haben eingeschränkten Internetzugang. Allerdings gilt nur etwas mehr als die Hälfte des KI-generierten Codes als korrekt und sicher, weshalb menschliches Review von Agent-PRs weiterhin entscheidend bleibt.
