Foto von Brett Sayles auf Pexels (freie Lizenz) Source

Die fünf am schnellsten wachsenden KI-Repositories auf GitHub haben eines gemeinsam: Sie laufen auf eigener Hardware. OpenClaw hat im März 2026 die 210.000-Stars-Marke durchbrochen. Open WebUI steht bei 128.000. RAGFlow bei 70.000. Ollama hält sich stabil über 130.000. Leon hat gerade 18.000 überschritten, nachdem das Projekt seinen Agentic Core neu aufgesetzt hat. Zusammengenommen halten Local-First-KI-Projekte mehr GitHub-Stars als jedes einzelne Cloud-KI-Produkt.

Das ist das klarste Signal im Open-Source-Bereich gerade. Entwickler experimentieren nicht nur aus Spaß mit lokalen Modellen. Sie bauen vollständige persönliche KI-Systeme, die echte Arbeit erledigen: E-Mail-Triage, Dokumentenanalyse, Code-Generierung, Recherche-Automatisierung. Ohne dass ein einziger API-Call das eigene Netzwerk verlässt.

Weiterlesen: Der Open-Source Agentic AI Stack 2026: Was Teams tatsächlich in Produktion betreiben

Die Zahlen hinter der Local-First-Explosion

Die Wachstumskurven erzählen die Geschichte besser als jedes Manifest. OpenClaw sprang im Januar 2026 innerhalb von 72 Stunden von 9.000 auf 60.000 Stars und kletterte bis März 2026 auf über 210.000. Das ist das schnellste Wachstum, das je ein Open-Source-Projekt auf GitHub erreicht hat.

OpenClaw steht aber nicht allein. Es ist Teil eines breiten Musters:

  • Open WebUI (vormals Ollama WebUI): 128.000+ Stars. Eine Self-Hosted-Oberfläche für beliebige LLMs, bei der alle Gespräche lokal gespeichert werden. Null Daten verlassen deine Maschine.
  • RAGFlow: 70.000+ Stars. Eine Open-Source-RAG-Engine mit tiefem Dokumentenverständnis, konzipiert für lokale Bereitstellung per Docker.
  • Ollama: 130.000+ Stars. Das “Docker für LLMs”, mit dem lokale Modellinferenz zum Einzeiler wird.
  • AnythingLLM: 40.000+ Stars. Eine Desktop-App für beliebige LLMs mit RAG über eigene Dokumente, vollständig offline.
  • Leon: 18.000+ Stars. Ein Open-Source-Assistent mit Sprachsteuerung, der 2026 komplett auf einen Agentic Core mit lokalen LLMs umgebaut wurde.

Laut der ByteByteGo-Analyse der Top-KI-Repositories 2026 belegen Self-Hosted- und Local-First-Projekte 7 der Top 20 Plätze. Vor zwei Jahren war es genau eines (Ollama).

Was “Local-First” konkret bedeutet

Der Begriff wird oft unscharf verwendet. Die präzise Definition: Ein Local-First-KI-Agent verarbeitet alle Inferenz, speichert alle Daten und führt alle Aktionen auf Infrastruktur aus, die du kontrollierst. Cloud-Anbindung ist optional, nicht erforderlich. Deine Prompts, deine Dokumente und die Ergebnisse deines Agenten berühren keinen Drittanbieter-Server, sofern du es nicht explizit so konfigurierst.

Das ist etwas anderes als “Open Source, aber Cloud-gehostet.” LangChain auf AWS mit einem OpenAI-API-Key ist Open-Source-Tooling, aber nicht Local-First. Für Compliance, Kosten und Kontrolle ist dieser Unterschied entscheidend.

Warum Entwickler aufgehört haben, Intelligenz zu mieten

Ein Essay vom Februar 2026 auf Rick’s Cafe AI brachte den Slogan, der diese Bewegung auf den Punkt bringt: “Stop Renting Intelligence.” Das Argument ist ökonomisch, philosophisch und zunehmend praktisch.

Die Kostenrechnung hat sich umgedreht

Ein 70B-Parametermodell lokal auf einer RTX 4090 zu betreiben kostet etwa 0,002 Dollar pro 1.000 Tokens an Strom. Dieselbe Arbeit über die GPT-4o-API kostet 0,01 bis 0,03 Dollar pro 1.000 Tokens. Für ein Team, das monatlich 10 Millionen Tokens durch Agenten jagt (ein moderates Volumen für Dokumentenanalyse oder Code-Review), ist das der Unterschied zwischen 20 Dollar Stromkosten und 100 bis 300 Dollar API-Gebühren. Über ein Jahr amortisiert sich eine einzelne GPU.

Die Wirtschaftlichkeit verbessert sich weiter, weil kleinere Modelle immer besser werden. Llama 3.2 8B läuft auf einer 500-Dollar-Consumer-GPU und erledigt 80 Prozent der Routineaufgaben (Zusammenfassung, Klassifikation, einfaches Reasoning) zu nahezu null Grenzkosten. Quantisierte Modelle über Ollama machen das für jeden mit einem ordentlichen Laptop zugänglich.

Datenschutz ist kein Feature, sondern Voraussetzung

Kongs Enterprise AI Report 2025 ergab, dass 44 Prozent der Unternehmen Datenschutz als größte Hürde für die LLM-Adoption nennen. Wenn dein Agent Personalakten, Kundenverträge oder Quellcode verarbeitet, erzeugt jeder API-Call an einen Drittanbieter eine Compliance-Oberfläche, die gemanagt werden muss. DSGVO, das BSI-Grundschutz-Kompendium, der EU AI Act: Jedes Regelwerk wird einfacher, wenn die Daten auf eigener Hardware bleiben.

Local-First eliminiert eine ganze Risikokategorie. Kein Auftragsverarbeitungsvertrag mit einem Inferenz-Anbieter nötig. Kein Unterauftragnehmer zu auditieren. Kein “Vertrauen Sie uns, wir löschen Ihre Prompts nach 30 Tagen” zu bewerten.

Weiterlesen: KI-Agent-Datenschutz 2026: Warum klassische Governance versagt, wenn Agenten autonom handeln

Souveränität und Kontrolle

Als OpenAI Anfang 2025 seine Nutzungsbedingungen änderte und Anthropic Ende 2025 Rate Limits anpasste, mussten Teams, die ihre Agent-Workflows um diese APIs gebaut hatten, hektisch reagieren. Local-First-Entwickler zuckten mit den Schultern. Ihre Inferenzschicht ändert sich nur, wenn sie es selbst wollen.

Das ist kein theoretisches Problem. Eine Umfrage unter r/LocalLLaMA-Powerusern im Februar 2026 zeigte, dass “Vermeidung von Vendor Lock-in” der zweitwichtigste Grund für Self-Hosting ist, direkt nach Datenschutz.

Die vier Projekte, die Personal AI neu definieren

Jedes dieser Projekte füllt eine andere Schicht des Local-First-Stacks. Zusammen ergeben sie etwas, das vor drei Jahren Science-Fiction gewesen wäre: ein vollständig selbst gehostetes KI-System, das mit Cloud-Angeboten mithalten kann.

OpenClaw: Der Alleskönner unter den persönlichen KI-Agenten

OpenClaw (ursprünglich Moltbot, dann ClawdBot) ist ein Self-Hosted-KI-Assistent, der sich mit WhatsApp, Telegram, Discord und iMessage verbindet. Laut DigitalOceans Erklärung kann er im Web surfen, E-Mails verwalten, Befehle auf dem eigenen Rechner ausführen und mehrstufige Workflows orchestrieren. Er unterstützt sowohl Cloud-APIs als auch vollständig lokale Inferenz über Ollama, sodass die gesamte Pipeline air-gapped laufen kann.

Was OpenClaw ungewöhnlich macht, ist sein Umfang. Die meisten lokalen KI-Tools können eine Sache gut: Inferenz, Chat oder RAG. OpenClaw versucht, die Betriebsschicht für das gesamte digitale Leben zu sein. Mit 210.000+ Stars ist es die klarste Wette der Community auf diese Vision.

Open WebUI: Die Self-Hosted-Chat-Oberfläche

Open WebUI ist der Haupteingang zur lokalen KI für die meisten Nutzer. Es bietet eine ChatGPT-ähnliche Oberfläche, die sich mit Ollama, OpenAI-kompatiblen APIs oder jedem beliebigen Inferenz-Backend verbindet. Jede Konversation bleibt auf dem eigenen Server. RAG ist eingebaut, ebenso Mehrbenutzer-Zugang mit rollenbasierter Zugriffskontrolle und ein Plugin-System.

Warum Open WebUI über seine Features hinaus relevant ist: Unternehmen setzen es als internen ChatGPT-Ersatz ein. Gleiche User Experience, null Datenabfluss, volle Kontrolle über verfügbare Modelle. Ein Team bei einem deutschen Versicherer beschrieb auf Hacker News, wie es sein ChatGPT-Enterprise-Abo durch Open WebUI plus Ollama mit Llama 3.1 70B ersetzt hat. Ersparnis: 12.000 Euro monatlich, bei vollständiger DSGVO-Konformität.

RAGFlow: Lokales RAG, richtig gemacht

RAGFlow löst das schwierigste Problem der lokalen KI: die eigenen Dokumente tatsächlich nutzbar für Agenten zu machen. Es kombiniert tiefes Dokumenten-Parsing (PDFs, Tabellen, Bilder, Code-Dateien) mit fortschrittlichen Chunking-Strategien und Retrieval-Pipelines. Version 0.24.0 brachte Multi-Modal-Datenverarbeitung und sprachübergreifende Abfragen.

Im Unterschied zu einfacheren RAG-Setups, die Dokumente in gleich große Blöcke zerteilen und auf das Beste hoffen, nutzt RAGFlow dokumentstrukturbasiertes Parsing. Es versteht Tabellen, Überschriften, verschachtelte Listen und Codeblöcke. Für Unternehmens-Wissensbasen, wo die Dokumentenqualität direkt die Antwortgenauigkeit bestimmt, ist dieser Ansatz entscheidend.

Leon: Der sprachgesteuerte Home Agent

Leon gibt es seit 2019, aber der Agentic-Core-Rewrite von 2026 hat es von einer Spielerei in ein ernsthaftes Projekt verwandelt. Leon nutzt jetzt lokale LLMs für einen sprachgesteuerten persönlichen Assistenten, der komplett offline läuft. Er kann Smart-Home-Geräte steuern, Kalender verwalten, Fragen aus einer persönlichen Wissensbasis beantworten und mehrstufige Aufgaben über eine agentenbasierte Reasoning-Schleife abarbeiten.

Das Alleinstellungsmerkmal ist die Sprachschnittstelle. Die meisten lokalen KI-Tools sind textbasiert. Leon ist für Nutzer gebaut, die mit ihrer KI sprechen wollen, nicht tippen. Spracherkennung und Synthese laufen lokal über Whisper und Piper, sodass selbst die Sprachdaten auf eigener Hardware bleiben.

Weiterlesen: Goose von Block: Der Open-Source-KI-Agent, der ohne Cloud auskommt

Was das für DACH-Unternehmen bedeutet

Die Local-First-Bewegung begann bei Bastlern, trifft aber mittlerweile voll auf die Enterprise-Adoption. Drei Faktoren treiben CIOs und CTOs dazu, den Trend ernst zu nehmen.

Der regulatorische Druck steigt weiter

Die Transparenz- und Data-Governance-Anforderungen des EU AI Act treten im August 2026 vollständig in Kraft. Für Hochrisiko-KI-Anwendungen (HR-Screening, Kreditbewertung, medizinische Triage) müssen Organisationen nachweisen, dass sie die volle Kontrolle über den Datenfluss in ihren KI-Systemen haben. Inferenz auf einer Drittanbieter-API, bei der man die Modellgewichte nicht einsehen und die Datenpipeline nicht auditieren kann, erschwert die Compliance. Local-First-Architekturen liefern den Compliance-Teams, was sie brauchen: vollständige Audit-Logs, Modellversionierung, Datenherkunft, alles auf eigener Infrastruktur.

Dazu kommt das BSI, das 2026 erstmals konkrete Sicherheitsregeln für KI-Agenten veröffentlicht hat. Self-Hosting ist zwar keine BSI-Anforderung, vereinfacht aber die Umsetzung des IT-Grundschutz-Kompendiums erheblich, weil die gesamte Verarbeitungskette dokumentierbar bleibt.

Hybride Architekturen sind die pragmatische Antwort

Die fortschrittlichsten Teams gehen weder komplett lokal noch komplett Cloud. Sie fahren hybrid: lokale Inferenz für sensible Daten (Kunden-PII, Finanzdaten, Rechtstexte) und Cloud-APIs für Standardaufgaben (Marketing-Texte, öffentliche Datenzusammenfassung, allgemeines Q&A). Die Analyse von The Product Space nennt das “Sovereign Inference”-Muster, und es wird zur Standardarchitektur für regulierte Branchen.

Gerade für deutsche Mittelständler, die oft weder Budget noch Personal für eine komplett selbst betriebene GPU-Farm haben, ist der hybride Ansatz realistisch: Open WebUI als Frontend, Ollama für interne Dokumente, Cloud-API als Fallback für Aufgaben ohne sensible Daten.

Das Talent-Signal

Wenn über 400.000 Entwickler Local-First-KI-Repos starren, ist das ein Arbeitsmarktsignal. Die Ingenieure, die dein Unternehmen einstellen will, bauen Skills rund um Ollama, Open WebUI und Self-Hosted-Inferenz auf. Die eigene KI-Infrastruktur auf den Tools aufzubauen, die sie bereits kennen, reduziert den Onboarding-Aufwand und hält den Stack dort, wo die Open-Source-Community investiert.

Weiterlesen: OpenClaw: Was der erste virale KI-Agent für Unternehmenssicherheit bedeutet

Häufig gestellte Fragen

Was sind lokale KI-Agenten?

Lokale KI-Agenten sind KI-Systeme, die alle Inferenz verarbeiten, alle Daten speichern und alle Aktionen auf Hardware ausführen, die du kontrollierst. Sie benötigen keine Cloud-APIs und senden keine Daten an Drittanbieter-Server. Beispiele sind OpenClaw, Open WebUI mit Ollama und Leon.

Können lokale KI-Agenten mit Cloud-KI mithalten?

Für viele Aufgaben ja. Modelle wie Llama 3.2 70B, die lokal über Ollama oder vLLM laufen, liefern vergleichbare Leistung wie Cloud-APIs bei Zusammenfassung, Klassifikation, Coding-Unterstützung und Dokumentenanalyse. Komplexes mehrstufiges Reasoning bevorzugt weiterhin Frontier-Cloud-Modelle wie GPT-4o oder Claude Opus, aber der Abstand schrumpft mit jeder Modellgeneration.

Welche Hardware brauche ich für lokale KI-Agenten?

Für kleine Modelle (8B Parameter) reicht ein Laptop mit 16 GB RAM. Für produktionstaugliche 70B-Modelle braucht man eine GPU mit 48 GB+ VRAM wie eine RTX 4090 oder A6000. Ollama übernimmt die Quantisierung automatisch, sodass auch größere Modelle auf Consumer-Hardware laufen, allerdings mit reduzierter Qualität.

Sind lokale KI-Agenten DSGVO-konform?

Local-First-Architekturen vereinfachen die DSGVO-Compliance, weil Daten die eigene Infrastruktur nie verlassen. Es gibt keinen Auftragsverarbeiter zu auditieren, keine grenzüberschreitende Datenübertragung zu rechtfertigen, und man behält die volle Kontrolle über Modellverhalten und Datenherkunft. Dennoch braucht man ordnungsgemäße Dokumentation, Risikoabschätzungen und Governance-Prozesse.

Was kostet es, KI-Agenten lokal zu betreiben?

Die Anschaffung einer geeigneten GPU (RTX 4090 oder vergleichbar) liegt bei etwa 1.500 bis 2.000 Euro. Die laufenden Stromkosten für lokale Inferenz betragen nur etwa 0,002 Dollar pro 1.000 Tokens. Im Vergleich zu Cloud-API-Kosten von 0,01 bis 0,03 Dollar pro 1.000 Tokens amortisiert sich die Hardware bei moderatem Volumen innerhalb eines Jahres.