AutoResearchClaw nimmt eine einzelne Forschungsidee und produziert daraus, ohne weiteres menschliches Zutun, ein konferenzformatiertes LaTeX-Paper mit echten Zitaten, generierten Experimenten, statistischer Analyse und Multi-Agent Peer Review. Das Open-Source-Projekt des AIMING Lab der University of North Carolina at Chapel Hill erreichte innerhalb von neun Tagen nach dem Release am 15. März 2026 über 8.000 GitHub-Sterne. Es ist der bisher ambitionierteste Versuch, nicht nur Teile des Forschungsprozesses zu automatisieren, sondern die gesamte Pipeline von der Hypothese bis zum einreichungsfertigen Manuskript.
Wo Karpathys AutoResearch ein 630-Zeilen-Loop ist, der eine einzige Metrik auf einer einzigen GPU optimiert, ist AutoResearchClaw ein vollständiges Produktionssystem: 23 Stufen, 8 Phasen, spezialisierte Sub-Agenten für Codegenerierung, Benchmarking, Abbildungserstellung und ein selbstlernendes Gedächtnissystem namens MetaClaw, das mit jedem Durchlauf besser wird. Der Slogan lautet “Chat an Idea. Get a Paper.” Ob das Paper dann auch tatsächlich gut ist, das ist die spannendere Frage.
Die 23-stufige Pipeline: Was nach dem Drücken von Enter passiert
Die Pipeline ist in 8 Phasen gegliedert. Drei davon enthalten “Gate”-Stufen, an denen AutoResearchClaw auf menschliche Freigabe warten kann. Die meisten Nutzer umgehen diese mit dem --auto-approve Flag.
Phase A: Research Scoping zerlegt die Idee in Teilprobleme. Man tippt “file-based vs. vector-based memory for LLM agents” und das System formuliert daraus konkrete Forschungsfragen mit messbaren Ergebnissen.
Phase B: Literature Discovery generiert Suchanfragen, zieht echte Paper von OpenAlex, Semantic Scholar und arXiv, filtert nach Relevanz und extrahiert zentrale Ergebnisse. Der Agent liest Abstracts und Schlussfolgerungen, bewertet die Relevanz und baut eine strukturierte Wissensbasis aus den besten Treffern auf.
Phase C: Knowledge Synthesis wird richtig interessant. Drei Agenten debattieren miteinander, um testbare Hypothesen zu generieren. Einer schlägt vor, einer kritisiert, einer synthetisiert. In einem realen Test durch das Menon Lab produzierte diese Debatte eine “quanteninspirierte Speicherkomprimierungshypothese” und eine neuroplastizitätsbasierte dynamische Schaltarchitektur. Beides waren neuartige Ansätze, die in der Eingabeliteratur nicht vorkamen.
Phase D: Experiment Design schreibt mehrteiligen Python-Code (main.py, setup.py, requirements.txt), erkennt verfügbare Hardware (NVIDIA CUDA, Apple MPS oder CPU-only) und verteilt Ressourcen.
Phase E: Experiment Execution führt den Code in einer Sandbox-Umgebung (Docker oder lokal) aus, mit einem selbstheilenden Loop: bis zu 10 Reparaturrunden mit AST-Validierung, NaN/Inf-Erkennung und automatischer Fehlerkorrektur.
Phase F: Analysis & Decision führt eine Multi-Agent-statistische Analyse durch und trifft eine autonome Entscheidung: PROCEED zum Schreiben, REFINE der Experimentparameter oder PIVOT in eine völlig neue Richtung. Jeder Pfad bewahrt die vollständige Artefaktversionierung.
Phase G: Paper Writing erstellt den vollständigen Entwurf (5.000-6.500 Wörter Ziel), führt ein 7-dimensionales Peer-Review-Scoring durch und überarbeitet auf Basis der eigenen Kritik.
Phase H: Finalization führt ein Qualitätsaudit durch (inklusive KI-Slop-Erkennung), archiviert Erkenntnisse für MetaClaw, generiert LaTeX in NeurIPS/ICML/ICLR-Templates mit korrektem BibTeX und prüft Zitate in vier Schichten gegen arXiv, CrossRef, DataCite und Semantic Scholar.
CodeAgent, BenchmarkAgent, FigureAgent: Die spezialisierten Sub-Agenten
Version 0.2.0, nur einen Tag nach dem Launch veröffentlicht, brachte drei spezialisierte Agenten-Subsysteme.
CodeAgent arbeitet in vier Phasen: Generierung, Validierung, Review und Reparatur. Er schreibt Experimentcode, führt statische Analyse und AST-basierte Verifikation am eigenen Output durch, macht einen tiefen Validierungspass und startet einen iterativen Fix-Loop (bis zu 3 Runden), wenn etwas schiefgeht. Entscheidend: Er prüft, ob Klassen und Methoden im generierten Code tatsächlich existieren, bevor er versucht, sie auszuführen. Das fängt den häufigsten Fehler bei LLM-generiertem Code ab: Funktionen aufrufen, die nie definiert wurden.
BenchmarkAgent nutzt vier Sub-Agenten, um passende Datensätze und Baselines aus einer 13-Domänen-Wissensbasis auszuwählen. Er ist domänenspezifisch: Für Computer Vision wählt er andere Benchmarks als für NLP oder Reinforcement Learning. Er validiert Imports und passt vortrainierte Modelle an, weil in frühen Versionen die Hälfte aller “Experiment abgestürzt”-Fehler von nicht passenden Tensor-Dimensionen kam.
FigureAgent erstellt wissenschaftliche Visualisierungen über fünf Sub-Agenten: Vergleichsdiagramme, Heatmaps, Ablationsstudien. Er erzwingt LLM-Output-Typsicherheit (keine “die Chartdaten sind ungefähr…"-Antworten, wenn echte Zahlen gebraucht werden) und verwendet Paul Tols farbenblindensichere Palette, die bei Konferenzeinreichungen zunehmend vorausgesetzt wird.
Funktioniert es wirklich? Ergebnisse und ehrliche Grenzen
Das AIMING Lab führte 6 End-to-End-Testläufe während der Entwicklung durch. Alle wurden erfolgreich abgeschlossen (124 von 124 Pipeline-Schritten), mit 94,3% Zitatintegrität und einem durchschnittlichen Qualitätsscore von 6,2 von 10 auf einer simulierten Konferenzreview-Skala. Diese 6,2 liegen unter der typischen NeurIPS/ICML-Annahmeschwelle, die in der Regel bei 6,5-7,0 beginnt.
Der unabhängige Test des Menon Lab zum Thema “file-based vs. vector-based memory for LLM agents” lieferte detailliertere Erkenntnisse:
- Literatursammlung: 5.153 Zeilen echtes BibTeX von arXiv und Semantic Scholar, alles verifiziert
- Codequalität: Sauber strukturiertes Python mit Baseline-Bedingungen und Ablationsstudien, aber “vereinfachte Simulationen statt produktionsreifer Implementierungen”
- Selbsterkenntnis: Die Pipeline identifizierte korrekt methodische Schwächen in den eigenen Experimenten
- Kosten: 5-15 Dollar API-Kosten pro Durchlauf mit GPT-4o
- Laufzeit: 20 Minuten bis über 2 Stunden je nach Komplexität
- Fazit: “Effektiver Forschungsassistent für initiale Exploration, nicht für publikationsfertige Ergebnisse”
Wo es scheitert
Die Experimente sind simuliert. AutoResearchClaw generiert und führt Python-Code aus, aber dieser Code läuft als vereinfachte Simulation, nicht als echtes GPU-Training im großen Maßstab. Es arbeitet mit vorinstallierten Datensätzen (CIFAR-10/100, MNIST) und greift nicht auf externe Rechenressourcen oder neuartige Datensätze zu.
Das 300-Sekunden-Standardbudget für Experimente ist für alles Komplexe zu knapp. Die Dokumentation weist darauf nicht deutlich genug hin.
Konfigurationsprobleme beim ersten Start sind häufig: falsche Python-Pfade, fehlender Docker-Zugang, API-Key-Probleme. Auch das Menon Lab scheiterte beim ersten Versuch an einem falschen Python-Pfad in den Sandbox-Einstellungen.
MetaClaw: Der langfristig wichtigste Baustein
Version 0.3.0 brachte MetaClaw, ein Cross-Run-Lernsystem. Es erfasst Erkenntnisse aus Fehlern und Warnungen, wandelt sie in wiederverwendbare Skills um und injiziert diese in alle 23 Pipeline-Stufen bei nachfolgenden Durchläufen. Das System nutzt ein 30-Tage-Zeitabfall-Gedächtnismodell, bei dem aktuelle Erkenntnisse stärker gewichtet werden.
Die kontrollierten Testergebnisse: 24,8% weniger Stufen-Wiederholungen, 40% weniger Verfeinerungszyklen und 18,3% höhere Gesamtrobustheit. Dieses Architekturmuster trennt AutoResearchClaw von einer simplen Prompt-Kette. Jeder Durchlauf macht den nächsten besser.
Das Problem mit der Forschungsintegrität
AutoResearchClaw existiert in einem Kontext, in dem KI-generierte akademische Inhalte bereits eine Krise darstellen. Pangram Labs’ Analyse der ICLR 2026-Einreichungen ergab, dass 21% der Peer Reviews (15.899 Bewertungen) vollständig KI-generiert waren, und über 50% zeigten KI-Beteiligung. GPTZeros separate Analyse fand über 50 halluzinierte Zitate in einer Stichprobe von 300 Papern, die bereits von 3-5 menschlichen Gutachtern geprüft worden waren, ohne dass eine einzige Fälschung auffiel.
Das Bulletin of the Atomic Scientists formuliert das tiefere Problem: Wenn Berufungskommissionen die Anzahl der Publikationen über die Forschungsqualität stellen, schaffen sie Anreize zum Schummeln. AutoResearchClaw macht dieses Schummeln dramatisch billiger. Ein API-Call für 10 Dollar ersetzt Monate Arbeit.
Für deutsche Universitäten und Forschungseinrichtungen stellt sich die Frage besonders dringend. Die Deutsche Forschungsgemeinschaft (DFG) hat bisher keine explizite Richtlinie zu vollständig KI-generierten Forschungsarbeiten. Die EU AI Act-Transparenzanforderungen könnten hier relevant werden: Wenn ein System KI-generierte Inhalte produziert, die als menschlich wahrgenommen werden könnten, greifen möglicherweise Kennzeichnungspflichten, auch im akademischen Kontext.
AutoResearchClaws 4-schichtige Zitatverifizierung (arXiv-IDs, CrossRef/DataCite-DOIs, Semantic Scholar Titelabgleich, LLM-Relevanz-Scoring) ist ein echtes Unterscheidungsmerkmal. Die 94,3% Zitatintegrität bedeuten, dass etwa jedes 18. Zitat unbestätigt sein könnte. Das ist Größenordnungen besser als roher GPT-4-Output, bei dem halluzinierte Referenzen eher die Regel als die Ausnahme sind.
Häufig gestellte Fragen
Kann AutoResearchClaw Paper generieren, die gut genug für NeurIPS oder ICML sind?
AutoResearchClaw generiert LaTeX-Paper in NeurIPS-, ICML- und ICLR-Templates, aber erste Testläufe erreichten 6,2 von 10 auf einer Konferenzreview-Skala, unter der typischen Annahmeschwelle von 6,5-7,0. Das Tool selbst empfiehlt menschliche Expertenbegutachtung vor jeder echten Einreichung. Es eignet sich am besten als Forschungsassistent für erste Exploration und Entwürfe, nicht als vollautomatische Publikationspipeline.
Was kostet ein vollständiger AutoResearchClaw-Durchlauf?
Ein typischer Durchlauf kostet 5-15 Dollar an API-Kosten mit GPT-4o. Komplexe Themen, die mehrere REFINE- oder PIVOT-Zyklen auslösen, können deutlich teurer werden. Das System unterstützt OpenAI, OpenRouter, DeepSeek und MiniMax direkt, sowie Claude Code, Codex CLI, Copilot CLI und Gemini CLI über das Agent Client Protocol (ACP), das keinen separaten API-Key benötigt.
Verwendet AutoResearchClaw echte Zitate oder halluziniert es sie?
AutoResearchClaw nutzt ein 4-schichtiges Zitatverifizierungssystem, das Referenzen gegen arXiv, CrossRef, DataCite und Semantic Scholar prüft. In Tests erreichte es 94,3% Zitatintegrität. Das v0.3.2 VerifiedRegistry-System kategorisiert 13 Arten von Zitatmängeln und entfernt nicht verifizierbare Referenzen automatisch. Deutlich besser als roher LLM-Output, aber etwa jedes 18. Zitat kann unbestätigt bleiben.
Was ist MetaClaw und wie verbessert es AutoResearchClaw?
MetaClaw ist AutoResearchClaws Cross-Run-Lernsystem aus v0.3.0. Es erfasst Erkenntnisse aus Fehlern jedes Durchlaufs, wandelt sie in wiederverwendbare Skills um und injiziert diese in alle 23 Pipeline-Stufen bei nachfolgenden Durchläufen. Es nutzt ein 30-Tage-Zeitabfall-Gedächtnismodell. In kontrollierten Experimenten reduzierte MetaClaw Stufen-Wiederholungen um 24,8%, Verfeinerungszyklen um 40% und verbesserte die Gesamtrobustheit um 18,3%.
Ist der Einsatz von AutoResearchClaw für akademische Forschung ethisch vertretbar?
Das wird aktiv diskutiert. AutoResearchClaw als Ideenfindungs- und Explorationstool zu nutzen und dabei die KI-Beteiligung offenzulegen, gilt als vertretbar. Dessen ungeprüften Output ohne Offenlegung bei Konferenzen einzureichen nicht. Viele Konferenzen haben mittlerweile explizite Richtlinien gegen nicht offengelegte KI-generierte Inhalte. Die DFG hat bisher keine explizite Position zu vollständig KI-generierten Forschungsarbeiten, aber die EU AI Act-Transparenzanforderungen könnten auch im akademischen Kontext greifen.
