Long-Horizon KI-Agenten: Was an Sequoias AGI-These stimmt (und was nicht)

Sequoia Capital hat im Januar 2026 eine gewagte Behauptung veröffentlicht: AGI sei da. Nicht “bald” oder “in Sichtweite,” sondern jetzt, in Produktivsystemen. Das Argument stützt sich auf ein konkretes Konzept: Long-Horizon-Agenten. Gemeint sind KI-Systeme, die über Minuten oder Stunden autonom arbeiten, Fehler selbst erkennen und korrigieren, ohne dass ein Mensch eingreift. Coding-Agenten wie Claude Code und OpenAI Codex seien der erste Beweis. Weitere Domänen würden folgen.

Die These ist provokant, gut argumentiert, und finanziert durch Milliarden in Portfoliounternehmen, die davon profitieren, wenn sie stimmt. Das macht sie nicht falsch. Aber es erfordert eine nüchterne Prüfung.

Was “Long-Horizon” konkret bedeutet

Der Begriff beschreibt, wie lange ein KI-Agent kohärent und zielgerichtet arbeiten kann, ohne dass ein Mensch eingreifen muss. Ein Chatbot hat einen Horizont von einer Nachricht. Ein einfaches Automatisierungsskript von Sekunden. Ein Long-Horizon-Agent arbeitet Minuten oder Stunden: plant seinen Ansatz, nutzt Werkzeuge, stößt auf Hindernisse, korrigiert den Kurs und iteriert auf ein Ziel hin.

Sequoia-Partner Pat Grady und Sonya Huang beschreiben das als dritte Säule der AGI. Die erste war das Pre-Training (der “ChatGPT-Moment” 2022). Die zweite war Inference-Time-Compute, also Modelle, die Probleme Schritt für Schritt durchdenken (OpenAIs o1, Ende 2024). Die dritte, die Ende 2025 und Anfang 2026 angekommen sei, ist die Agent-Schleife: Systeme, die über längere Zeiträume eigenständig “Dinge herausfinden” können.

Das konkreteste Beispiel: Ein Recruiting-Agent von Juicebox, der eine vollständige Kandidatensuche in 31 Minuten erledigte. Er durchsuchte LinkedIn nach Developer-Relations-Kandidaten bei Wettbewerbern, prüfte YouTube auf Konferenzvorträge, analysierte Twitter-Aktivitätsmuster, schloss ungeeignete Kandidaten aus und verfasste personalisierte Anschreiben. Kein Mensch griff zwischen der Eingabe und dem fertigen Ergebnis ein.

Das unterscheidet sich tatsächlich fundamental von einem Chatbot, der eine Frage nach der anderen beantwortet. Ob es AGI ist, hängt allerdings komplett davon ab, was man unter dem Begriff versteht.

Der Benchmark: METRs 50%-Zeithorizont

Die stärkste quantitative Evidenz für die Long-Horizon-These liefert METR, eine Forschungsorganisation für KI-Sicherheit. Ihre “50%-Zeithorizont”-Metrik misst die Länge von Aufgaben (kalibriert an der Bearbeitungszeit menschlicher Experten), die ein KI-Agent mit 50% Erfolgswahrscheinlichkeit autonom lösen kann.

Die Zahlen sind bemerkenswert. Frontier-Modelle wie Claude 3.7 Sonnet erreichten Anfang 2025 einen 50%-Zeithorizont von rund 50 bis 60 Minuten. Dieser Wert hat sich in den letzten sechs Jahren ungefähr alle sieben Monate verdoppelt. In manchen jüngeren Zeiträumen sogar alle drei bis vier Monate.

Extrapoliert man den Trend (immer ein riskantes Unterfangen), könnten Agenten bis etwa 2028 ganztägige Expertenaufgaben bewältigen, bis 2034 ganzjährige. METR selbst weist auf den offensichtlichen Vorbehalt hin: Die Projektionen basieren auf sechs Jahren Daten, hauptsächlich aus Software-Engineering-Aufgaben. Ob der Trend in anderen Domänen hält oder an physische Grenzen stößt, ist genuinely unklar.

Was nicht spekulativ ist: Agenten, die 2023 kaum Fünf-Minuten-Aufgaben bewältigten, erledigen heute routinemäßig Aufgaben, die eine Stunde dauern. Das ist messbarer Fortschritt.

Coding-Agenten als Frühindikator

Wenn Long-Horizon-Agenten eine Durchbruchsdomäne haben, dann ist es Software-Engineering. Coding-Agenten sind der erste Bereich, in dem mehrstündige autonome Arbeit zum Alltag gehört, und die Produktionsdaten bestätigen das.

Claude Code überschritt bis Ende 2025 eine annualisierte Umsatzrate von 1,1 Milliarden Dollar, mit täglichen Installationszahlen, die seit Januar 2026 von 17,7 Millionen auf 29 Millionen gestiegen sind. Unternehmen wie Uber, Netflix, Spotify und Salesforce setzen es produktiv ein. Auf SWE-Bench Verified, einem standardisierten Benchmark für reale Bugfixes, erreichte Claude Opus 4.5 mit 80,9% als erstes Modell die 80%-Marke.

OpenAIs GPT-5.3-Codex, gestartet im Februar 2026, verfolgt einen leicht anderen Ansatz. Aufgaben dauern typischerweise eine bis 30 Minuten. Die Codex-Desktop-App funktioniert als Kommandozentrale für parallele Aufgabenausführung, mit Automatisierungen, die Routinearbeit wie Issue-Triage ohne Aufforderung erledigen.

Goldman Sachs liefert eine aufschlussreiche Enterprise-Fallstudie. Die Bank hat Cognitions Devin bei ihren 12.000 Entwicklern eingesetzt, anfangs mit Hunderten von Instanzen, mit dem Plan, auf Tausende zu skalieren. CIO Marco Argenti nannte Claude “überraschend fähig” bei Aufgaben jenseits des Codings, besonders dort, wo das Parsen großer Datenmengen auf Regelanwendung und Urteilsvermögen trifft. Goldman erwartet, dass diese Agenten den Effekt bisheriger KI-Lösungen verdreifachen oder vervierfachen.

Zwei technische Wege zu längeren Horizonten

Wie baut man einen Agenten, der stundenlang auf Kurs bleibt? Zwei Ansätze konvergieren gerade.

Reinforcement Learning

Frontier-Labs trainieren Modelle so, dass sie intrinsisch kohärentes Verhalten über längere Kontexte aufrechterhalten. Googles Ansatz nutzt Reinforcement Learning auf der Zielebene statt auf der Token-Ebene, was den Suchraum drastisch reduziert. Statt zu optimieren, welches Wort als nächstes kommt, lernt das Modell, welche Strategie als nächste verfolgt werden sollte. Das ergibt Agenten, die natürlicherweise bei mehrstufigen Problemen fokussiert bleiben, ohne externes Gerüst.

Agent-Harnesses

Der Anwendungsschicht-Ansatz umgibt Modelle mit Infrastruktur, die deren Limitierungen kompensiert. Anthropics Claude Code nutzt Initializer-Agenten für die Arbeitsumgebung, Fortschrittsdateien zur Zustandserhaltung über Kontextfenster hinweg und git-basierte Checkpoints. Wenn das Kontextfenster voll ist, kann der Agent seine eigenen Fortschrittsnotizen lesen und dort weitermachen, wo er aufgehört hat.

Harrison Chase von LangChain argumentiert im Sequoia-Podcast, dass “Context Engineering, nicht nur bessere Modelle” der Schlüssel sei. LangChains Deep Agents nutzen das Dateisystem als Agent-State, erzeugen Sub-Agenten für Teilaufgaben und behandeln jede Sitzung als Checkpoint in einem längeren Workflow. Das funktioniert besonders gut bei Coding, SRE, Research und komplexem Kundensupport.

Die praktische Erkenntnis: Längere Horizonte entstehen sowohl durch intelligentere Modelle als auch durch intelligentere Infrastruktur drumherum. Wer nur auf einen Ansatz setzt, verpasst die halbe Entwicklung.

Die AGI-Frage: Definitionsspiel oder echte Zäsur?

Sequoias AGI-Definition ist bewusst pragmatisch. Sie definieren AGI als “die Fähigkeit, Dinge herauszufinden,” aufgeteilt in drei Komponenten: Basiswissen (Pre-Training), Schlussfolgerung (Inference-Time-Compute) und Iteration (Agent-Schleifen). Nach dieser Definition: Ja, AGI ist angekommen.

Die Tech-Community ist nicht überzeugt. In Hacker-News-Diskussionen wird regelmäßig darauf hingewiesen, dass Sequoia sowohl in OpenAI als auch in Anthropic investiert ist. Das AGI-Narrativ bis zu den jeweiligen IPOs aufrechtzuerhalten, ist finanziell motiviert. Tim Dettmers veröffentlichte ein technisches Gegenargument, dass Skalierungsgesetze an physische Grenzen stoßen, GPU-Verbesserungen ein Plateau erreicht haben und aktuelle KI nur Wissensarbeit adressiert, während die größten Wirtschaftssektoren unangetastet bleiben.

Dazu kommt das Abbruchproblem. Gartner prognostiziert, dass 40% der Unternehmensanwendungen bis Ende 2026 KI-Agenten einbetten, sagt aber gleichzeitig voraus, dass über 40% der Agentic-AI-Projekte bis Ende 2027 eingestellt werden, wegen eskalierender Kosten, unklarem Geschäftswert oder unzureichender Risikokontrollen.

Die ehrliche Bewertung: Long-Horizon-Agenten stellen einen echten Fähigkeitssprung dar. Ein Agent, der eine Stunde lang autonom an einer komplexen Aufgabe arbeitet, ist qualitativ anders als ein Chatbot. Aber das AGI zu nennen, dehnt den Begriff über seine nützliche Bedeutung hinaus. AGI hat immer allgemeine Intelligenz über alle Domänen hinweg impliziert. Was wir haben, ist eine schmale Autonomie, die mit beeindruckender Geschwindigkeit breiter wird.

Was das für die Unternehmensstrategie bedeutet

Vergessen Sie das AGI-Label. Konzentrieren Sie sich darauf, was Long-Horizon-Agenten heute konkret für Ihre Organisation leisten können.

Wo Long-Horizon-Agenten heute funktionieren

Coding und Software-Engineering sind die bewährte Domäne. Darüber hinaus zeigt Sequoias eigene Auflistung produktive Agenten in Medizin (OpenEvidence), Recht (Harvey), Cybersecurity (XBOW), DevOps (Traversal) und Vertrieb (Day AI). Goldman Sachs setzt Claude für die Buchführung im Handel und die Compliance bei der Kundenaufnahme ein.

Der gemeinsame Nenner: strukturierte Domänen mit klaren Erfolgskriterien, Zugang zu digitalen Werkzeugen und Toleranz für Iteration. Wenn die Aufgabe darin besteht, Dokumente zu lesen, Regeln anzuwenden, Daten abzugleichen und ein Ergebnis zu liefern, das ein Mensch prüfen kann, kommt ein Long-Horizon-Agent damit wahrscheinlich zurecht.

Wo sie scheitern

Aufgaben, die physische Interaktion, soziales Echtzeiturteil oder genuinely neuartiges Denken außerhalb der Trainingsdaten erfordern. Ein Agent kann einen Schriftsatz entwerfen, indem er Präzedenzfälle analysiert; er kann keinen Vergleich verhandeln. Ein Agent kann Support-Tickets triagieren; er kann die Stimmung in einem Verkaufsgespräch nicht lesen.

Der praktische Fahrplan

Starten Sie mit Coding-Agenten, wenn Sie ein Entwicklerteam haben. Der ROI ist dort am besten belegt. Dann schauen Sie auf interne Workflows mit hohem Dokumentenvolumen und regelbasierten Entscheidungen: Compliance-Prüfungen, Finanzabstimmungen, Kandidaten-Screening. Goldmans Erfahrung deutet darauf hin, dass “Aufgaben jenseits des Codings, wo das Parsen großer Datenmengen auf Regelanwendung trifft” die nächste Grenze sind.

Planen Sie mit einer 40%-Ausfallrate bei initialen Agentenprojekten, im Einklang mit Gartners Prognose. Die Projekte, die scheitern, haben typischerweise unklare Erfolgskriterien, zu wenig menschliche Aufsicht oder versuchen, Aufgaben zu automatisieren, die implizites Wissen erfordern, über das der Agent nicht verfügt.

Für deutsche Unternehmen kommt ein zusätzlicher Faktor hinzu: Der EU AI Act klassifiziert viele Anwendungsfälle von Long-Horizon-Agenten als Hochrisiko-KI, insbesondere im HR-Bereich und bei der Kreditwürdigkeitsprüfung. Wer hier frühzeitig Compliance-Strukturen aufbaut, spart sich spätere Nachrüstung.

Häufig gestellte Fragen

Was sind Long-Horizon KI-Agenten?

Long-Horizon KI-Agenten sind KI-Systeme, die über längere Zeiträume autonom arbeiten, typischerweise Minuten bis Stunden, ohne menschliches Eingreifen. Sie planen ihren Ansatz, nutzen Werkzeuge, stoßen auf Hindernisse, korrigieren den Kurs und iterieren auf ein Ziel hin. Coding-Agenten wie Claude Code und OpenAI Codex sind heute die bekanntesten Produktivbeispiele.

Hat Sequoia Capital wirklich behauptet, AGI sei da?

Ja. Im Januar 2026 veröffentlichten die Sequoia-Partner Pat Grady und Sonya Huang den Artikel “This Is AGI.” Sie argumentieren, dass Long-Horizon-Agenten funktionale AGI darstellen, definiert als “die Fähigkeit, Dinge herauszufinden.” Diese pragmatische Definition unterscheidet sich von traditionellen AGI-Konzepten, die menschenähnliche allgemeine Intelligenz über alle Domänen erfordern.

Wie lange können KI-Agenten 2026 autonom arbeiten?

Laut METRs Benchmarks können Frontier-KI-Modelle Aufgaben, die menschliche Experten 50 bis 60 Minuten kosten, mit 50% Zuverlässigkeit lösen (Stand Anfang 2025). Diese Fähigkeit hat sich in den letzten sechs Jahren ungefähr alle sieben Monate verdoppelt. Coding-Agenten bewältigen in der Produktion routinemäßig mehrstündige Aufgaben.

Sind Coding-Agenten das beste Beispiel für Long-Horizon-KI?

Ja. Coding-Agenten sind die Durchbruchsdomäne für Long-Horizon-Autonomie. Claude Code überschritt bis Ende 2025 eine ARR von 1,1 Milliarden Dollar. Auf SWE-Bench Verified löste Claude Opus 4.5 mit 80,9% erstmals über 80% realer Bugfix-Aufgaben. Goldman Sachs setzt Hunderte Devin-Instanzen bei 12.000 Entwicklern ein. Weitere Domänen wie Recht, Medizin und Cybersecurity folgen.

Sollten Unternehmen Long-Horizon KI-Agenten jetzt einsetzen?

Starten Sie mit Coding-Agenten, wo der ROI am besten belegt ist. Dann schauen Sie auf interne Workflows mit hohem Dokumentenvolumen und regelbasierten Entscheidungen: Compliance-Prüfungen, Finanzabstimmungen, Kandidaten-Screening. Planen Sie mit einer 40%-Ausfallrate bei initialen Projekten gemäß Gartners Prognose. Deutsche Unternehmen sollten zudem die Hochrisiko-Klassifizierung des EU AI Act bei HR- und Kreditanwendungen beachten.

Titelbild: Francesco Ungaro via Pexels Source

Was “Long-Horizon” konkret bedeutet#

Der Benchmark: METRs 50%-Zeithorizont#

Coding-Agenten als Frühindikator#

Zwei technische Wege zu längeren Horizonten#

Reinforcement Learning#

Agent-Harnesses#

Die AGI-Frage: Definitionsspiel oder echte Zäsur?#

Was das für die Unternehmensstrategie bedeutet#

Wo Long-Horizon-Agenten heute funktionieren#

Wo sie scheitern#

Der praktische Fahrplan#

Häufig gestellte Fragen#

Was sind Long-Horizon KI-Agenten?#

Hat Sequoia Capital wirklich behauptet, AGI sei da?#

Wie lange können KI-Agenten 2026 autonom arbeiten?#

Sind Coding-Agenten das beste Beispiel für Long-Horizon-KI?#

Sollten Unternehmen Long-Horizon KI-Agenten jetzt einsetzen?#