Anthropic bringt KI-Agenten ins Labor: Partnerschaft mit Allen Institute und HHMI

Q: Wie unterscheidet sich Anthropics Ansatz von AlphaFold?

AlphaFold ist ein Einzelaufgaben-Modell zur Proteinstrukturvorhersage. Anthropic setzt Multi-Agenten-Systeme über den gesamten Forschungsworkflow ein: Datenaufbereitung, Literaturrecherche, Experimentkoordination und Analyse. Das Ziel ist die Unterstützung von Forschenden über viele Aufgaben hinweg, nicht ein Durchbruch bei einem spezifischen Problem.

Foto von Louis Reed auf Unsplash Source

Anthropic hat im Februar 2026 Forschungspartnerschaften mit dem Allen Institute und dem Howard Hughes Medical Institute (HHMI) unterzeichnet. Claude-KI-Agenten werden direkt in biowissenschaftliche Labore integriert, nicht als API-Anbindung, sondern mit Anthropic-Ingenieuren vor Ort am Janelia Research Campus und in den Allen-Institute-Abteilungen. Die Agenten übernehmen Einzelzell-Genomik-Analysen, Konnektomik-Datenverarbeitung und Experimentdesign. Fünf Tage vor der Ankündigung veröffentlichte das Allen Institute for AI (Ai2) Theorizer: ein Open-Source-Framework, das 13.744 wissenschaftliche Paper zu 2.856 strukturierten, testbaren Theorien synthetisiert.

Der Unterschied zu AlphaFold ist grundlegend: DeepMinds Proteinfaltungsmodell löst eine spezifische Aufgabe herausragend. Anthropic zielt auf die unspektakuläre Mitte der Forschungsarbeit, die 80% einer Wissenschaftlerwoche, die mit Paper lesen, Daten bereinigen, Experimente koordinieren und Ergebnisse aufschreiben vergeht.

Was die Partnerschaften konkret umfassen

Jonah Cool, Anthropics Leiter für Life-Sciences-Partnerschaften und selbst Zellbiologe, erklärte gegenüber Fortune: “Was AlphaFold erreicht hat, ist unglaublich. Aber was wir hier machen, ist etwas anderes. Es geht darum, mit Teams über den gesamten wissenschaftlichen Prozess hinweg zu arbeiten und KI in ihren Arbeitsalltag einzubetten.”

HHMI und der Janelia Research Campus

Die HHMI-Kooperation ist am Janelia Research Campus verankert, jenem Institut, das genetisch kodierte Kalziumsensoren (GCaMP) und Elektronenmikroskope zur Kartierung der Gehirnarchitektur entwickelt hat. Die Arbeit läuft unter HHMIs AI@HHMI-Initiative und konzentriert sich auf zwei Bereiche: computergestütztes Proteindesign und neuronale Mechanismen der Kognition.

Anthropic entwickelt spezialisierte KI-Agenten für den Laboreinsatz und baut, wie sie es beschreiben, “umfassende experimentelle Wissensquellen, die mit wissenschaftlichen Instrumenten und Analysepipelines integriert sind”. Entscheidend: Anthropic hat sich verpflichtet, die Modelle kontinuierlich an reale experimentelle Bedürfnisse anzupassen, statt ein generisches Modell auszuliefern.

Allen Institute: Multi-Agenten-Systeme für Terabyte-Datensätze

Die Allen-Institute-Seite ist technisch ambitionierter. Dort arbeiten Forschende routinemäßig mit Terabyte-großen Datensätzen: Einzelzell-Genomik-Läufe, Konnektomik-Hirnkarten und Hochdurchsatz-Bildgebung. Die Partnerschaft setzt Multi-Agenten-Systeme ein mit spezialisierten Agenten für Multi-Omik-Datenintegration, Knowledge-Graph-Management, zeitliche Dynamikmodellierung und Experimentdesign.

Grace Huynh, Direktorin für KI-Anwendungen am Allen Institute, betonte, dass die Agenten “spezifische Engpässe adressieren, statt universell eingesetzt zu werden”. Eine pragmatische Erkenntnis: Man setzt nicht einen einzelnen Generalisten-Agenten auf eine komplette Forschungspipeline an. Man baut spezialisierte Agenten für klar definierte Aufgaben (Genexpressionsmatrix analysieren, Knowledge Graph abfragen, Folgeexperimente vorschlagen) und orchestriert sie zusammen.

Das Ziel: Monate dauernde Datenanalysen auf Stunden komprimieren. Zur Einordnung: Ein einzelnes Einzelzell-RNA-Sequenzierungsexperiment generiert Daten zu Hunderttausenden einzelner Zellen, jede mit Expressionswerten für über 20.000 Gene. Manuelle Verarbeitung, Normalisierung, Clustering und Annotation durch einen Forschenden kann Wochen dauern. Multi-Agenten-Pipelines parallelisieren diese Arbeit.

Theorizer: Von 13.744 Papern zu 2.856 Theorien

Ai2 veröffentlichte Theorizer am 28. Januar 2026, fünf Tage vor der Partnerschaftsankündigung. Das Timing war kein Zufall. Theorizer ist ein Multi-LLM-Framework, das eine Forschungsfrage entgegennimmt, relevante wissenschaftliche Literatur abruft, strukturierte Evidenz extrahiert und Theorien als formale (Gesetz, Geltungsbereich, Evidenz)-Tupel synthetisiert.

So funktioniert die Pipeline:

Literaturrecherche: Das System ruft bis zu 100 relevante Paper über PaperFinder und Semantic Scholar ab, konvertiert PDFs in Text und erweitert den Pool durch Auswertung der Referenzlisten.
Evidenzextraktion: Ein maßgeschneidertes Schema definiert die relevanten Entitäten und Variablen je Abfrage. Ein LLM befüllt dieses Schema als strukturierte JSON-Datensätze für jedes Paper.
Theoriesynthese: Evidenz wird über Paper hinweg aggregiert, dann verbessert ein Selbstreflexionsschritt die Konsistenz und filtert redundante Aussagen.

Die Zahlen im Detail

Theorizer verarbeitete 13.744 Quellpaper und generierte 2.856 Theorien aus 100 repräsentativen Abfragen im Bereich KI/NLP-Forschung. Im Backtesting gegen einen Sechs-Monats-Holdout-Zeitraum erreichte der Genauigkeitsmodus 0,88-0,90 Präzision bei 0,51 Recall. Rund 51% der genauigkeitsoptimierten Theorien hatten mindestens ein nachfolgendes Paper, das ihre Vorhersagen überprüfte.

Das System läuft auf GPT-4.1 für Schema- und Theoriegenerierung, GPT-5 mini verarbeitet die großskalige Evidenzextraktion. Es unterstützt auch Claude und Mistral für PDF-Konvertierung. Jede Abfrage dauert 15-30 Minuten (parallelisierbar), der literaturgestützte Ansatz kostet etwa das 7-fache einer rein parametrischen Generierung. Der gesamte Code steht unter Apache 2.0 auf GitHub.

Das breitere Ökosystem: Wer baut sonst KI für die Wissenschaft?

Anthropic operiert nicht isoliert. Mehrere Organisationen bauen KI-Systeme für die Forschung, jede mit unterschiedlichen Ansätzen.

Stanfords Biomni

Biomni aus Stanford ist eine Claude-gestützte Agentenplattform mit Zugang zu 150 Tools, 59 Datenbanken und 106 Softwarepaketen über 25+ biologische Teilbereiche. Die Kernzahl: Biomni hat eine genomweite Assoziationsstudie (GWAS) in 20 Minuten abgeschlossen. Diese Analyse dauert normalerweise Monate. Zusätzlich verarbeitete es Genaktivitätsdaten von 336.000 Einzelzellen und analysierte über 450 Wearable-Datendateien von 30 Teilnehmern in 35 Minuten, rund 800-mal schneller als menschliche Analysten.

Owkins Pathology Explorer

Owkin startete seinen Pathology Explorer im Januar 2026 als ersten spezialisierten biologischen KI-Agenten über das Model Context Protocol (MCP) in Claude. Trainiert auf multimodalen Patientendaten aus über 800 Krankenhäusern identifiziert er Zelltypen und Biomarker in digitalen Pathologiebildern. Für europäische Forschungseinrichtungen ist dabei relevant: Die Datenverarbeitung muss DSGVO-konform erfolgen, was Owkin durch Federated-Learning-Ansätze adressiert, bei denen Patientendaten die Kliniken nie verlassen.

Sakana AIs AI Scientist: Warnendes Beispiel

Sakana AIs AI Scientist steht am entgegengesetzten Ende des Spektrums: eine vollautomatisierte Pipeline von der Ideenfindung bis zum fertigen Paper. Ihr AI-Scientist-v2 generierte ein Workshop-Paper, das bei der ICLR mit 6,33 Punkten angenommen wurde. Aber die Probleme sind erheblich: 42% der Experimente scheiterten an Programmierfehlern, Literaturrecherchen nutzten simplistische Keyword-Suchen mit durchschnittlich nur 5 Zitationen pro Paper, und Gutachter fanden halluzinierte Zahlenwerte und Platzhaltertexte. Die Lehre: Vollautomatisierung ohne domänenspezifische Leitplanken produziert eindrucksvolle Demos, aber unzuverlässige Wissenschaft.

Das Halluzinationsproblem in der wissenschaftlichen KI

Nichts davon funktioniert, wenn die KI Dinge erfindet. Und die Bilanz ist ernüchternd.

GPTZero fand über 50 Halluzinationen in Papern unter Review bei der ICLR 2026, übersehen von jeweils 3-5 Gutachtern pro Paper. NeurIPS-Forschungspapiere enthielten über 100 KI-halluzinierte Zitationen. Bei Literaturrecherche-Anwendungen wurden Halluzinationsraten für fabricierte Referenzen zwischen 28-91% gemessen.

Theorizers Ansatz adressiert das teilweise, indem jede Behauptung zu spezifischen Papern rückverfolgbar ist. Aber bei 0,51 Recall übersieht das System die Hälfte dessen, was es finden sollte. Anthropics Partnerschaftsmodell, Ingenieure neben Wissenschaftlern zu platzieren, die Ausgaben verifizieren können, dient vermutlich genauso der Halluzinationsrisiko-Minimierung wie der Feature-Entwicklung.

Für Forschungseinrichtungen in der DACH-Region kommt eine weitere Dimension hinzu: Der EU AI Act klassifiziert KI-Systeme im Gesundheits- und Forschungsbereich potenziell als Hochrisiko-Anwendungen. Transparenz und Nachvollziehbarkeit der KI-Ausgaben sind nicht nur wissenschaftlich wünschenswert, sondern regulatorisch gefordert. Frameworks wie Theorizer, die jede Aussage bis zum Quellpaper zurückverfolgen, kommen dieser Anforderung entgegen.

Amodeis “komprimiertes 21. Jahrhundert”

Anthropic-CEO Dario Amodei skizzierte in seinem Essay “Machines of Loving Grace” vom Oktober 2024 ein “komprimiertes 21. Jahrhundert”, in dem KI-gestützte Biologie und Medizin “den Fortschritt, den menschliche Biologen in den nächsten 50 bis 100 Jahren erzielt hätten, auf fünf bis zehn Jahre komprimieren”.

Die Partnerschaften mit Allen Institute und HHMI sind die ersten konkreten institutionellen Schritte in diese Richtung. Sie basieren auf der Annahme, dass der Engpass im wissenschaftlichen Fortschritt nicht die Qualität der Hypothesen oder die Raffinesse der Experimente ist, sondern das schiere Volumen manueller, repetitiver Arbeit zwischen einem Experiment und dem nächsten. Wenn Agenten die Datenaufbereitung, Literaturrecherche und Experimentkoordination komprimieren, die 80% der Forschungszeit beansprucht, wird die kreative Arbeit, Hypothesenbildung und Experimentdesign, die in den verbleibenden 20% stattfindet, vervielfacht.

Ob das “komprimierte Jahrhundert” realistisch ist, bleibt diskutabel. Aber der zugrundeliegende Mechanismus, KI-Agenten zur Reibungsreduktion im Forschungsworkflow einzusetzen statt Forschende zu ersetzen, liefert bereits messbare Ergebnisse.

Häufig gestellte Fragen

Was ist die Partnerschaft zwischen Anthropic, Allen Institute und HHMI?

Anthropic hat im Februar 2026 Forschungspartnerschaften mit dem Allen Institute und dem Howard Hughes Medical Institute (HHMI) geschlossen, um Claude-KI-Agenten direkt in biowissenschaftliche Labore zu integrieren. Die Kooperationen umfassen Multi-Agenten-Systeme für Einzelzell-Genomik, Konnektomik-Datenverarbeitung, computergestütztes Proteindesign und Experimentkoordination. Anthropic platziert Ingenieure neben Bench-Wissenschaftlern am Janelia Research Campus und in den Allen-Institute-Abteilungen.

Was ist das Theorizer-Framework?

Theorizer ist ein Open-Source-Multi-LLM-Framework des Allen Institute for AI (Ai2), das wissenschaftliche Literatur in strukturierte, testbare Theorien synthetisiert. Es verarbeitete 13.744 Paper und generierte 2.856 Theorien mit 0,88-0,90 Präzision. Jede Theorie ist ein formales Tupel aus Gesetz (qualitative oder quantitative Aussage), Geltungsbereich (Domäneneinschränkungen und Randbedingungen) und Evidenz (empirische Belege, rückverfolgbar zu Quellpapern). Der Code steht auf GitHub unter Apache 2.0.

Wie werden KI-Agenten in der biowissenschaftlichen Forschung eingesetzt?

KI-Agenten werden für Literatursynthese, Datenanalyse, Experimentdesign und Knowledge-Graph-Management eingesetzt. Stanfords Biomni hat eine genomweite Assoziationsstudie in 20 Minuten abgeschlossen (normalerweise Monate Arbeit). Owkins Pathology Explorer identifiziert Biomarker aus digitalen Pathologiebildern mit Daten aus über 800 Krankenhäusern. FutureHouse betreibt spezialisierte Agenten für Literaturrecherche, Forschungslücken-Erkennung und Chemie-Experimente.

Wie unterscheidet sich Anthropics Ansatz von AlphaFold?

AlphaFold ist ein Einzelaufgaben-Modell zur Vorhersage von Proteinstrukturen. Anthropic setzt Multi-Agenten-Systeme über den gesamten Forschungsworkflow ein: Datenaufbereitung, Literaturrecherche, Experimentkoordination und Analyse. Wie Anthropics Jonah Cool es formulierte: “Was AlphaFold erreicht hat, ist unglaublich. Aber was wir hier machen, ist etwas anderes. Es geht darum, mit Teams über den gesamten wissenschaftlichen Prozess hinweg zu arbeiten.”

Welche Risiken bergen KI-Agenten in der wissenschaftlichen Forschung?

Das Hauptrisiko sind Halluzinationen. KI-halluzinierte Zitationen wurden in Papern bei großen Konferenzen (ICLR, NeurIPS) gefunden, mit Fabricierungsraten für Referenzen von 28-91% bei einigen Literaturrecherche-Anwendungen. Anthropic adressiert dies, indem Ingenieure neben Wissenschaftlern platziert werden und Nachvollziehbarkeit in Systeme wie Theorizer eingebaut wird. Für DACH-Einrichtungen relevant: Der EU AI Act fordert Transparenz und Nachvollziehbarkeit bei KI-Hochrisikoanwendungen im Forschungsbereich.

Was die Partnerschaften konkret umfassen#

HHMI und der Janelia Research Campus#

Allen Institute: Multi-Agenten-Systeme für Terabyte-Datensätze#

Theorizer: Von 13.744 Papern zu 2.856 Theorien#

Die Zahlen im Detail#

Das breitere Ökosystem: Wer baut sonst KI für die Wissenschaft?#

Stanfords Biomni#

Owkins Pathology Explorer#

Sakana AIs AI Scientist: Warnendes Beispiel#

Das Halluzinationsproblem in der wissenschaftlichen KI#

Amodeis “komprimiertes 21. Jahrhundert”#

Häufig gestellte Fragen#

Was ist die Partnerschaft zwischen Anthropic, Allen Institute und HHMI?#

Was ist das Theorizer-Framework?#

Wie werden KI-Agenten in der biowissenschaftlichen Forschung eingesetzt?#

Wie unterscheidet sich Anthropics Ansatz von AlphaFold?#

Welche Risiken bergen KI-Agenten in der wissenschaftlichen Forschung?#