Der produktionstaugliche Open-Source-Stack für KI-Agenten besteht aus fünf Schichten: lokale Inferenz, Agent-Orchestrierung, Vektorspeicher für RAG, Workflow-Automatisierung und Observability. Jede Schicht hat mittlerweile mindestens ein Tool, das produktionsreif ist. Ein viel diskutierter Thread auf r/LocalLLaMA vom Februar 2026 zeigt: Hunderte Teams setzen genau diese Kombination ein. Ollama oder vLLM für lokale Modelle, LangGraph oder CrewAI für die Agentenlogik, Qdrant für Retrieval, n8n für Integrations-Workflows, Langfuse für Tracing.
Dieser Beitrag geht Schicht für Schicht durch den Stack, benennt die Tools, die tatsächlich in Produktion laufen (nicht nur in Demos), und erklärt, wann welches Tool die richtige Wahl ist. Wer schon Framework-Vergleiche und Tool-Roundups gelesen hat, aber immer noch nicht weiß, was als Erstes installiert werden soll: Hier kommt die Antwort.
Schicht 1: Lokale LLM-Inferenz mit Ollama und vLLM
Alles beginnt mit der Inferenz. Wer seine Agenten für jede Anfrage eine Cloud-API anrufen lässt, zahlt pro Token und schickt Daten raus. Gerade für Unternehmen im DACH-Raum, die der DSGVO unterliegen, ist das ein Datenschutzproblem. Der Open-Source-Stack ersetzt das durch lokales Model-Serving.
Ollama ist der Einstiegspunkt für die große Mehrheit der Teams. Ein Befehl (ollama run llama3.2) lädt ein quantisiertes Modell herunter und startet einen lokalen API-Server, der mit dem OpenAI-Chat-Completions-Format kompatibel ist. GPU-Erkennung funktioniert automatisch, es läuft auf Mac, Linux und Windows, und die Modellverwaltung fühlt sich an wie ein Paketmanager. Docker-Support macht Ollama überall deployfähig. Mit über 130.000 GitHub-Stars Anfang 2026 ist es das populärste lokale LLM-Tool überhaupt.
Der Haken: Ollama verarbeitet standardmäßig maximal vier parallele Anfragen und nutzt GGUF-quantisierte Modelle (typischerweise 4-Bit oder 8-Bit). Für einen einzelnen Entwickler oder ein kleines Team beim Prototyping reicht das. Für einen Produktions-Service mit 50+ gleichzeitigen Nutzern nicht.
vLLM löst das Durchsatzproblem. Das PagedAttention-Speichermanagement reduziert GPU-Speicherfragmentierung um 50% und mehr. Red-Hat-Benchmarks zeigen, dass vLLM bei 128 gleichzeitigen Anfragen bis zu 3,23-mal mehr Durchsatz als Ollama erreicht. vLLM nutzt BF16-Safetensors-Modelle statt quantisierter GGUFs. Das bedeutet höheren Speicherbedarf, aber bessere Output-Qualität. Voraussetzung sind moderne GPUs (A100, H100 oder RTX-4090-Klasse) mit viel VRAM.
Wann welches Tool?
Ollama für Entwicklung, Prototyping und kleine Deployments. vLLM, wenn mehr als eine Handvoll gleichzeitiger Agent-Sessions bedient werden müssen oder wenn Output-Qualität wichtiger ist als Hardwarekosten. Viele Teams fahren beides: Ollama auf den Entwickler-Laptops, vLLM auf den Shared-GPU-Servern.
Eine dritte Option mit wachsender Verbreitung ist SGLang. Es erreicht ähnlichen Durchsatz wie vLLM und bietet eine Structured-Generation-API, die besonders gut für Tool-Calling-Agenten funktioniert.
Schicht 2: Agent-Orchestrierungs-Frameworks
Die Orchestrierungsschicht bestimmt, wie Agenten denken, handeln und sich von Fehlern erholen. Drei Open-Source-Frameworks dominieren aktuell die Produktions-Deployments, jedes mit einer grundlegend anderen Architektur.
LangGraph modelliert Agenten als Zustandsgraphen: Knoten sind Aktionen, Kanten sind Übergänge. Das gibt explizite Kontrolle über jeden Entscheidungspfad, eingebautes Checkpointing für State-Persistenz und die Möglichkeit, jeden Agent-Run von jedem Punkt aus nachzuspielen. Langfuse-Benchmarks zeigen die niedrigste Latenz und den geringsten Token-Verbrauch über standardisierte Aufgaben hinweg. Mit 24.000+ GitHub-Stars und 4,2 Millionen monatlichen PyPI-Downloads ist es das Framework, das die meisten Produktionsteams wählen, wenn Kontrolle und Auditierbarkeit zählen.
CrewAI verfolgt einen rollenbasierten Ansatz. Agenten werden mit bestimmten Rollen, Backstories und Zielen definiert und bekommen Aufgaben in einem sequentiellen oder hierarchischen Prozess zugewiesen. Mitgeliefert werden mehrschichtiger Speicher (ChromaDB für Kurzzeitgedächtnis, SQLite für Aufgabenergebnisse und Langzeitgedächtnis) und YAML-basierte Task-Konfiguration. Teams, die in Kategorien wie “Researcher-Agent, Writer-Agent, Reviewer-Agent” denken, kommen mit CrewAI am schnellsten vom Konzept zum funktionierenden Prototyp. Der Kompromiss: weniger granulare Kontrolle über den Ausführungsfluss.
smolagents von Hugging Face ist die minimalistische Variante. Agenten schreiben und führen Python-Code direkt aus, statt vordefinierte Tools über eine Framework-Abstraktion aufzurufen. Kein Graph, kein YAML, kein Rollensystem. Nur eine Schleife, in der das LLM Code generiert, die Runtime ihn ausführt und das Ergebnis in den nächsten Schritt einfließt. Ideal für Self-Hosted-Setups mit kleineren Hugging-Face-Modellen.
Produktionsreife im Vergleich
| Feature | LangGraph | CrewAI | smolagents |
|---|---|---|---|
| State-Persistenz | Eingebaute Checkpoints | ChromaDB + SQLite | Nur In-Memory |
| Human-in-the-Loop | Native Breakpoints | Unterstützt | Manuell |
| Multi-Agent-Muster | Graph-Komposition | Rollen-Hierarchien | Code-Delegation |
| Observability | LangSmith / Langfuse | Eingebautes Tracing | Basis-Logging |
| Lernkurve | Steil | Moderat | Niedrig |
Für die meisten Produktionsteams lautet die Antwort: LangGraph für komplexe, geschäftskritische Workflows und CrewAI für alles andere. smolagents füllt eine Nische für Teams, die tief im Hugging-Face-Ökosystem stecken und lokale Modelle fahren.
Schicht 3: RAG, Vektorspeicher und Agent-Gedächtnis
Agenten ohne Gedächtnis sind zustandslose Chatbots mit Extra-Schritten. Die Retrieval-Schicht gibt Agenten Zugriff auf Dokumente, Wissensbasen und Konversationshistorie.
Qdrant ist die Produktionswahl für Vektorspeicher. In Rust geschrieben, unterstützt es HNSW-Indexierung, Payload-Filtering und Vektor-Quantisierung out of the box. Horizontales Skalieren funktioniert über eingebautes Sharding über mehrere Knoten. Self-Hosting geht unkompliziert per Docker, und die Qdrant-Dokumentation deckt Produktions-Deployment-Muster inklusive Replikation und Backup ab. Bei großen Datenmengen trennt Qdrant sich von Alternativen: Millionen von Vektoren werden mit Sub-Millisekunden-Abfragezeiten verarbeitet.
ChromaDB ist einfacher für den Einstieg. Die Python-native API ermöglicht es, ChromaDB mit drei Zeilen Code direkt in einen LangGraph- oder CrewAI-Agenten einzubetten. Für das Prototyping von RAG-Pipelines auf dem Laptop gibt es nichts Schnelleres. Aber es fehlen die verteilten Deployment-Features, die Qdrant bietet, und die Performance lässt bei großen Collections nach. ChromaDB ist die SQLite unter den Vektordatenbanken: perfekt für die Entwicklung, nicht ausreichend für hohe Produktionslast.
Supabase verdient Erwähnung als “Schweizer Taschenmesser”. Es kombiniert PostgreSQL (mit pgvector für Vektorsuche), Authentifizierung, Echtzeit-Subscriptions und eine REST-API in einem einzigen selbst gehosteten Docker-Stack. Teams, die eine Vektordatenbank UND eine relationale Datenbank UND User-Auth brauchen, wählen oft Supabase, um nicht drei separate Services betreiben zu müssen. Das n8n Self-Hosted AI Starter Kit bündelt es standardmäßig.
Speicherarchitektur für Agenten
Produktions-Agent-Memory teilt sich typischerweise in drei Ebenen:
- Arbeitsspeicher: Aktueller Konversationskontext, gehalten im State des Orchestrierungs-Frameworks (LangGraph-Checkpoints oder CrewAIs Kurzzeit-ChromaDB-Store).
- Episodisches Gedächtnis: Vergangene Konversations-Zusammenfassungen und Task-Ergebnisse, gespeichert in einer relationalen Datenbank (PostgreSQL via Supabase oder SQLite).
- Semantisches Gedächtnis: Dokumente, Wissensbasen und Embeddings, gespeichert in einer Vektordatenbank (Qdrant oder ChromaDB) für Retrieval.
Schicht 4: Workflow-Automatisierung und Integration
Orchestrierungs-Frameworks übernehmen das Denken. Workflow-Automatisierung übernimmt die Verbindungen: Agenten über externe Events triggern, SaaS-Tools anbinden, Batch-Jobs planen und Ergebnisse an die richtige Stelle routen.
n8n dominiert diese Schicht für selbst gehostete Teams. Mit 70.000+ GitHub-Stars, einer Bewertung von 2,5 Milliarden Dollar nach der Series C und fast 70 KI-spezifischen Nodes auf Basis von LangChain überbrückt n8n die Lücke zwischen “Agent, der denken kann” und “Agent, der tatsächlich Dinge in der realen Welt tun kann.”
Warum n8n im Open-Source-Stack unverzichtbar ist:
- AI Agent Node verbindet sich mit OpenAI, Anthropic, Google oder lokal über Ollama bedienten Modellen. Der LangGraph-Agent übernimmt das komplexe Reasoning; n8n übernimmt Trigger und Integrationen.
- 400+ vorgefertigte Integrationen decken CRMs, Datenbanken, E-Mail, Slack, Google Workspace und praktisch jede SaaS-API ab. Diese Anbindungen für jeden Agenten von Grund auf zu bauen würde Monate dauern.
- Sub-Workflow-Orchestrierung ermöglicht Multi-Agent-Muster, bei denen ein Router-Workflow an spezialisierte Agent-Workflows delegiert.
- Self-Hosted by Default. Docker Compose, keine externen Abhängigkeiten, die Daten bleiben auf der eigenen Infrastruktur. Gerade für DACH-Unternehmen, die DSGVO-konform arbeiten müssen, ist das ein entscheidender Vorteil.
Das n8n Self-Hosted AI Starter Kit bündelt n8n + Ollama + Qdrant + PostgreSQL in einer einzigen docker-compose.yml, die mit einem Befehl startet. Es ist der schnellste Weg zu einer kompletten lokalen KI-Workflow-Umgebung.
Für Teams, die einen Code-First-Ansatz visuellen Workflows vorziehen, ist Temporal (Open Source, dauerhafte Workflow-Ausführung) die Alternative. Es handhabt langlaufende Agent-Tasks mit eingebauter Retry-Logik und State-Persistenz, erfordert aber deutlich mehr Engineering-Aufwand beim Setup.
Schicht 5: Observability und Evaluation
Agenten in Produktion ohne Observability sind Black Boxes. Man kann nicht debuggen, was man nicht tracen kann, und man kann nicht verbessern, was man nicht messen kann.
Langfuse ist der Open-Source-Standard für LLM-Observability. Selbst hostbar via Docker Compose (oder Helm für Kubernetes), bietet es:
- Trace-Visualisierung: Jeder LLM-Call, jeder Tool-Aufruf und jeder Retrieval-Schritt in einer einzigen Timeline-Ansicht. Wenn ein Agent aus der Spur gerät, lässt sich genau lokalisieren, welcher Schritt den falschen Output produziert hat.
- Kosten-Tracking: Token-Verbrauch und Compute-Kosten pro Agent, pro Workflow, pro Nutzer im Blick behalten. Unverzichtbar für Teams, die mit GPU-Budgets arbeiten.
- Prompt-Management: Prompts versionieren und A/B-testen, ohne den Agenten neu zu deployen.
- Evaluations-Frameworks: Agent-Outputs gegen Ground Truth bewerten, Modellversionen vergleichen und Qualitätsmetriken über die Zeit verfolgen.
- OpenTelemetry-Integration: Nativer OTEL-Support bedeutet, dass Langfuse-Daten in die bestehende Monitoring-Infrastruktur (Grafana, Datadog etc.) fließen können.
Langfuse integriert sich nativ mit LangGraph, CrewAI und den meisten LLM-SDKs. Das Langfuse-GitHub-Repository hat über 10.000 Stars, und das Projekt wird von Y Combinator unterstützt.
Für Teams, die bereits LangGraph nutzen, bietet LangSmith engere Integration, ist aber ein gehosteter Service und nicht selbst hostbar. Wer vollständig On-Premises bleiben will, kommt an Langfuse nicht vorbei.
Der Referenz-Stack: Alle Schichten zusammen
So sieht ein kompletter selbst gehosteter Agentic-AI-Stack in der Praxis aus, von unten nach oben:
┌─────────────────────────────────────────────┐
│ Schicht 5: Observability │
│ Langfuse (Tracing, Evals, Kosten-Tracking) │
├─────────────────────────────────────────────┤
│ Schicht 4: Workflow & Integration │
│ n8n (Trigger, SaaS-Konnektoren, Routing) │
├─────────────────────────────────────────────┤
│ Schicht 3: RAG & Memory │
│ Qdrant (Vektoren) + PostgreSQL (relational)│
├─────────────────────────────────────────────┤
│ Schicht 2: Agent-Orchestrierung │
│ LangGraph (komplex) oder CrewAI (schnell) │
├─────────────────────────────────────────────┤
│ Schicht 1: Inferenz │
│ Ollama (Dev) oder vLLM (Produktion) │
└─────────────────────────────────────────────┘
Minimale Hardware zum Einstieg
Ein einzelner Rechner mit 16 GB RAM und einer NVIDIA-GPU mit 8 GB+ VRAM (etwa eine RTX 3070 oder 4060) kann den gesamten Stack für die Entwicklung betreiben. Ollama mit einem 7B-Parameter-Modell, n8n, Qdrant, PostgreSQL und Langfuse passen alle bequem in Docker Compose auf diese Hardware.
Für die Produktion sollte man einplanen:
- Inferenz-Server: 1-2 GPUs mit je 24 GB+ VRAM (RTX 4090 oder A100) mit vLLM
- Application-Server: 32 GB RAM, 8+ CPU-Kerne für n8n, Qdrant, PostgreSQL, Langfuse
- Speicher: SSD mit 500 GB+ für Modellgewichte, Vektor-Indizes und Logs
Der Docker-Compose-Startpunkt
Das n8n Self-Hosted AI Starter Kit bringt die Schichten 1, 3 und 4 mit einem einzigen Befehl zum Laufen. Langfuse für Schicht 5 hinzufügen und LangGraph oder CrewAI für Schicht 2 einbinden. Das local-ai-packaged-Projekt von Cole Medin geht noch weiter und bündelt Ollama, Supabase, n8n, Open WebUI und Flowise in einem Paket.
Vom leeren Server zum funktionierenden Multi-Agent-System mit RAG und Observability braucht ein erfahrener Entwickler etwa ein Wochenende. Das ist das eigentliche Versprechen des Open-Source-Stacks 2026: nicht nur, dass die Tools kostenlos sind, sondern dass sie sauber zusammenspielen.
Häufig gestellte Fragen
Welches Open-Source-LLM eignet sich am besten für lokale KI-Agenten in 2026?
Für den lokalen KI-Agent-Einsatz in 2026 sind Llama 3.2 (8B- und 70B-Varianten) und Qwen 3 die beliebtesten Optionen. Ollama macht den Betrieb mit einem einzigen Befehl trivial. Für agentische Aufgaben mit Tool Calling performt Llama 3.2 mit nativem Function-Calling-Support am nächsten an kommerziellen Modellen wie GPT-4o und Claude.
Kann man einen produktionsreifen KI-Agent-Stack ohne GPU betreiben?
Technisch ja, praktisch nein. Ollama unterstützt CPU-only-Inferenz, aber ein 7B-Modell generiert auf der CPU etwa 2-5 Tokens pro Sekunde, verglichen mit 50-100+ Tokens pro Sekunde auf einer modernen GPU. Für Produktions-Agent-Workflows, bei denen Antwortlatenz wichtig ist, ist GPU-Inferenz unerlässlich. Eine Einstiegs-NVIDIA RTX 4060 mit 8 GB VRAM kann ein 7B-Modell mit akzeptabler Geschwindigkeit für 1-3 gleichzeitige Nutzer bedienen.
Was kostet ein selbst gehosteter KI-Agent-Stack im Vergleich zu Cloud-APIs?
Die Hardwarekosten für einen produktionsreifen Self-Hosted-Stack beginnen bei etwa 3.000-5.000 Euro für einen einzelnen GPU-Server (RTX 4090). Laufende Kosten sind Strom (circa 50-100 Euro/Monat für eine einzelne GPU im 24/7-Betrieb). Zum Vergleich: Ein aktiver Agent mit 10.000 GPT-4o-Calls pro Tag kostet etwa 300-600 Euro/Monat allein an API-Gebühren. Die meisten Teams erreichen den Break-even innerhalb von 6-12 Monaten Self-Hosting, mit den zusätzlichen Vorteilen von Datenschutz und keinen Rate Limits.
Was ist der Unterschied zwischen n8n und LangGraph für KI-Agenten?
LangGraph übernimmt das Agent-Reasoning: Entscheidung welche Tools aufgerufen werden, Verarbeitung von Ergebnissen, Verwaltung des Konversationszustands und Implementierung mehrstufiger Logik. n8n übernimmt die Workflow-Automatisierung: Agenten über externe Events triggern (Webhooks, Zeitpläne, E-Mails), SaaS-Tools anbinden (CRMs, Datenbanken, Slack) und Agent-Outputs an nachgelagerte Systeme routen. Die meisten Produktions-Stacks nutzen beides. LangGraph für das Gehirn, n8n für das Nervensystem.
Ist der Open-Source-KI-Agent-Stack 2026 produktionsreif?
Ja, mit Einschränkungen. Einzelkomponenten wie Ollama, LangGraph, Qdrant, n8n und Langfuse werden jeweils von Tausenden Teams in Produktion eingesetzt. Die Herausforderung ist die Integration: Alle fünf Schichten zuverlässig zusammenspielen zu lassen erfordert DevOps-Expertise und laufende Wartung. Starter-Kits wie das n8n Self-Hosted AI Kit und local-ai-packaged verkürzen die Setup-Zeit auf Stunden, aber Production Hardening (Monitoring, Backups, Sicherheit, Skalierung) bleibt die eigene Verantwortung.
