NVIDIA Nemotron 3 ist die erste Familie offener KI-Modelle, die von Grund auf für agentische Workloads konzipiert wurde. Das Nano-Modell aktiviert pro Forward-Pass nur 3,2 Milliarden seiner insgesamt 30 Milliarden Parameter und übertrifft trotzdem GPT-OSS-20B auf den meisten Standardbenchmarks. Super, die mittlere Variante (veröffentlicht im März 2026), nutzt eine neuartige LatentMoE-Architektur und liefert 2,2x den Durchsatz von GPT-OSS-120B bei vergleichbarer Genauigkeit. Ultra, das 500-Milliarden-Parameter-Flaggschiff, wird Mitte 2026 erwartet. Alle drei Modelle teilen denselben hybriden Mamba-Transformer-Mixture-of-Experts-Aufbau, ein natives 1-Million-Token-Kontextfenster und offene Gewichte unter der NVIDIA Open Model License.
Diese Kombination aus Effizienz, langem Kontext und Offenheit macht Nemotron 3 zu mehr als einem weiteren Modell-Release. Es ist eine Architektur-These: Agentische Workloads brauchen ein grundlegend anderes Modelldesign als Chat.
Warum agentische KI eine andere Architektur braucht
Standard-Transformer-Modelle verarbeiten jeden Token mit demselben Rechenbudget. Für Chat mit Kontextfenstern unter 8K Token und Latenz als Hauptkriterium funktioniert das. Agentische Workloads sehen komplett anders aus.
Eine typische Multi-Agenten-Pipeline: Ein Planungsagent liest 50.000 Token Kontext, ruft drei Tools auf, gibt Ergebnisse an einen Coding-Agenten weiter, der 4.000 Token Output generiert, diese an einen Review-Agenten weiterleitet und zweimal iteriert. Der Gesamtverbrauch pro Aufgabe liegt schnell bei 200K bis 500K Token. Bei reinen Transformer-Attention-Kosten, die quadratisch mit der Sequenzlänge wachsen, wird der Betrieb im großen Maßstab teuer.
Mamba-Schichten lösen das Problem langer Kontexte. Mamba-2, das selektive State-Space-Modell, verarbeitet Sequenzen in linearer Zeit relativ zur Länge. Es hält einen komprimierten Zustand, der mit dem Informationsgehalt der Sequenz wächst, nicht mit ihrer Rohlänge. Wenn ein Agent 100K Token Code durchsucht, erledigen Mamba-Schichten den Großteil dieser Kontextverarbeitung zu einem Bruchteil der Kosten voller Attention.
Mamba allein reicht aber nicht. State-Space-Modelle haben Schwächen bei Aufgaben, die präzise Token-zu-Token-Vergleiche über lange Distanzen erfordern, genau die Art von Reasoning, die Agenten brauchen, wenn sie eine Funktionssignatur in Zeile 40 mit einem Aufruf in Zeile 8.000 abgleichen. Transformer-Attention-Schichten sind dafür hervorragend. Der hybride Ansatz vereint beides: Mamba-Schichten übernehmen die günstige Massenverarbeitung, während gezielt platzierte Attention-Schichten die globale Präzision liefern.
Die Nemotron-3-Architektur im Detail
Die drei Nemotron-3-Modelle teilen architektonische Grundprinzipien, unterscheiden sich aber in Größe und technischer Raffinesse.
Nano: 30 Milliarden gesamt, 3,2 Milliarden aktiv
Nemotron 3 Nano ist das Produktions-Arbeitspferd. Seine 52 Schichten gliedern sich in 23 Mamba-2-Schichten, 23 MoE-Feed-Forward-Schichten und 6 Grouped-Query-Attention-Schichten (GQA). Jede MoE-Schicht enthält 128 Experten plus einen geteilten Experten, wobei 6 Experten pro Token aktiviert werden. Ergebnis: Nur 3,2 Milliarden von 30 Milliarden Parametern feuern pro Forward-Pass.
Auf NVIDIAs eigenen Benchmarks liefert Nano 3,3x höheren Durchsatz als Qwen3-30B-A3B auf einer einzelnen H200-GPU im 8K-Input-/16K-Output-Setting. Dieser Durchsatzvorteil multipliziert sich in Multi-Agenten-Pipelines mit dutzenden parallelen Agentenaufrufen.
Das 1-Million-Token-Kontextfenster ist nativ implementiert, nicht nachträglich durch RoPE-Skalierung aufgesetzt. Auf dem RULER-Benchmark für Long-Context-Evaluation hält Nano seinen Genauigkeitsvorteil gegenüber GPT-OSS-20B und Qwen3-30B über Kontextlängen von 4K bis 128K Token.
Super: 120 Milliarden gesamt, 12 Milliarden aktiv
Nemotron 3 Super, veröffentlicht im März 2026, führt zwei architektonische Innovationen ein.
LatentMoE ersetzt den Standard-MoE-Routing-Mechanismus. In einem normalen MoE sendet ein Router-Netzwerk jeden Token basierend auf dessen Embedding an eine Teilmenge von Experten. LatentMoE fügt einen Zwischenschritt hinzu: Token werden zuerst in einen niedrigdimensionalen Raum projiziert, bevor das Routing stattfindet. Das ermöglicht dem Modell, differenziertere Experten-Spezialisierung zu lernen. NVIDIA berichtet, dass dies bessere Genauigkeit pro Parameter und pro FLOP erreicht als Standard-MoE.
Multi-Token-Prediction (MTP) erlaubt dem Modell, mehrere zukünftige Token in einem einzelnen Forward-Pass vorherzusagen. Auf dem SPEED-Bench erreicht Super eine durchschnittliche Akzeptanzlänge von 3,45 Token pro Verifikationsschritt, verglichen mit 2,70 bei DeepSeek-R1. Das ergibt bis zu 3-fache Beschleunigung der Wanduhrzeit durch spekulative Dekodierung, ohne ein separates Draft-Modell zu benötigen.
Zusammen ermöglichen diese Innovationen Super einen bis zu 7,5x höheren Durchsatz als Qwen3.5-122B bei vergleichbarer Benchmark-Genauigkeit.
Ultra: 500 Milliarden gesamt, 50 Milliarden aktiv
Nemotron 3 Ultra ist das noch unveröffentlichte Flaggschiff, erwartet in H1 2026. Mit 500 Milliarden Gesamtparametern und etwa 50 Milliarden aktiven pro Token zielt es auf Deep Research, strategische Planung und großskalige Multi-Agenten-Koordination. Ultra wurde mit NVFP4-Präzision auf Blackwell-GPUs trainiert, was zeigt, dass NVIDIA Modelle gezielt für die neueste eigene Hardware-Generation entwickelt.
Wer bereits auf Nemotron 3 setzt
Die Liste der Early Adopter liest sich wie ein Branchenbuch der Enterprise-Software. NVIDIAs Ankündigung nennt Accenture, Cadence, CrowdStrike, Cursor, Deloitte, EY, Oracle Cloud Infrastructure, Palantir, Perplexity, ServiceNow, Siemens, Synopsys und Zoom als Unternehmen, die Nemotron 3 in Produktions-Workflows integrieren.
Siemens: Industrielle KI-Agenten
Für den DACH-Raum ist Siemens als Adopter besonders relevant. Der Konzern setzt bereits KI-Agenten in der industriellen Automatisierung ein, und Nemotron 3 Nanos Kombination aus Effizienz und langem Kontextfenster passt ideal zu den Anforderungen von Fertigungsdaten: Maschinenprotokolle mit hunderttausenden Zeilen, Produktionspläne und Qualitätsdaten in einem einzelnen Kontext verarbeiten.
CrowdStrike: Cybersecurity-Triage im großen Maßstab
CrowdStrike verarbeitet täglich Millionen von Security-Alerts. Jeder Alert braucht Kontext: Was geschah vorher, wie sieht die Systemtopologie aus, welche ähnlichen Alerts gab es bereits. Das ist ein Long-Context-Hochdurchsatz-Workload, bei dem Nanos 3,2 Milliarden aktive Parameter und 1-Million-Token-Kontext den optimalen Kompromiss treffen.
Cursor: KI-gestützte Code-Agenten
Cursor, der KI-Code-Editor, integriert Nemotron 3 für Code-Verständnis und -Generierung. Code-Agenten sind der klassische mehrstufige agentische Workload: Datei lesen, Abhängigkeiten verstehen, Änderungen planen, Code generieren, Output prüfen, iterieren. Supers Multi-Token-Prediction ist hier besonders wertvoll, da Code eine hohe Token-zu-Token-Vorhersagbarkeit hat.
Nemotron 3 im Vergleich zur Konkurrenz
Die Modelle, gegen die Nemotron 3 antritt, sind nicht die proprietären Frontier-Modelle (GPT-5.3, Claude Opus 4.6), sondern die offene Effizienzkategorie: Metas GPT-OSS-Familie, Qwen3/3.5 und DeepSeek.
| Modell | Gesamt-Parameter | Aktive Parameter | Kontext | Durchsatz (8K in/16K out) |
|---|---|---|---|---|
| Nemotron 3 Nano | 30B | 3,2B | 1M | 3,3x vs. Qwen3-30B-A3B |
| Nemotron 3 Super | 120B | 12B | 1M | 2,2x vs. GPT-OSS-120B |
| Qwen3-30B-A3B | 30B | 3B | 128K | 1x (Baseline) |
| GPT-OSS-120B | 120B | ~12B | 128K | 1x (Baseline) |
Der Durchsatzvorteil kommt aus zwei Quellen: Mamba-Schichten reduzieren den Rechenaufwand pro Token bei langen Kontexten, und MoE-Routing hält die aktive Parameteranzahl niedrig. Das 1-Million-Token-Kontextfenster ist ein qualitativer Unterschied. Agenten, die ganze Codebasen, vollständige Security-Logs oder komplette Dokumentenbestände in einem Kontextfenster verarbeiten können, verhalten sich fundamental anders als Agenten mit 128K-Limit.
Was das für die offene Modelllandschaft bedeutet
Nemotron 3 markiert einen strategischen Schwenk in NVIDIAs Herangehensweise an die Modellschicht. Statt direkt mit OpenAI und Anthropic im General-Purpose-Chat zu konkurrieren, besetzt NVIDIA eine Nische: die besten offenen Modelle für agentische Workloads, optimiert für NVIDIA-Hardware.
Drei Implikationen stechen hervor:
Der Mamba-Transformer-Hybrid wird zum Standard für Effizienz-Modelle. AI21s Jamba war 2024 der Pionier. Nemotron 3 validiert das Muster mit Enterprise-Adoption im großen Maßstab. Qwen und Meta dürften innerhalb von 12 Monaten eigene hybride Varianten liefern.
Offene Modelle mit 1M Kontext sind Realität. Vor einem Jahr war 1M Kontext ein proprietäres Feature von Google und Anthropic. Nemotron 3 liefert es in einem offenen Modell, das man selbst hosten, fine-tunen und ohne API-Rate-Limits betreiben kann. Für Unternehmen im DACH-Raum, die unter DSGVO-Anforderungen Daten nicht in US-Clouds senden wollen, ist das ein entscheidender Vorteil.
NVIDIA baut einen vertikalen Stack. Nemotron-3-Modelle laufen auf NVIDIA-Hardware, werden über NVIDIA NIM bereitgestellt, integrieren sich mit dem NVIDIA Agent Toolkit und werden von AgentIQ profiliert. Das ist kein isolierter Modell-Release, sondern ein Ökosystem-Spiel.
Für Teams, die produktive Agentensysteme bauen, lohnt sich eine Evaluierung von Nemotron 3 Nano schon heute. Es ist auf Hugging Face, über NVIDIA NIM und auf DeepInfra verfügbar. Super ist seit März 2026 verfügbar und bereits kostenlos auf OpenRouter nutzbar. Ultra vervollständigt die Familie später in diesem Jahr.
Häufig gestellte Fragen
Was ist NVIDIA Nemotron 3?
Nemotron 3 ist NVIDIAs Familie offener KI-Modelle (Nano, Super, Ultra), die speziell für agentische KI-Workloads entwickelt wurden. Sie nutzen eine hybride Mamba-Transformer-Mixture-of-Experts-Architektur mit einem 1-Million-Token-Kontextfenster und liefern hohen Durchsatz bei niedriger aktiver Parameteranzahl.
Wie funktioniert die hybride Mamba-Transformer-Architektur in Nemotron 3?
Nemotron 3 verschränkt Mamba-2-State-Space-Schichten (die lange Sequenzen in linearer Zeit verarbeiten) mit Transformer-Attention-Schichten (für präzise Langstrecken-Vergleiche) und MoE-Feed-Forward-Schichten. Nano verwendet 23 Mamba-2-Schichten, 23 MoE-Schichten und 6 Attention-Schichten in seinem 52-Schichten-Stack.
Was ist der Unterschied zwischen Nemotron 3 Nano, Super und Ultra?
Nano hat 30B Gesamt- / 3,2B aktive Parameter für effizientes Edge- und Single-GPU-Deployment. Super hat 120B Gesamt- / 12B aktive Parameter mit LatentMoE und Multi-Token-Prediction für kollaborative Agenten-Workloads. Ultra hat 500B Gesamt- / 50B aktive Parameter für Deep Research und großskalige Multi-Agenten-Koordination.
Ist Nemotron 3 Open Source?
Nemotron 3 ist Open-Weight unter der NVIDIA Open Model License. NVIDIA veröffentlicht Modellgewichte, Trainingsrezepte, Pre- und Post-Training-Software und den Großteil der Trainingsdaten. Nano ist auf Hugging Face und NVIDIA NIM verfügbar. Super wurde im März 2026 veröffentlicht. Ultra wird in H1 2026 erwartet.
Kann man Nemotron 3 DSGVO-konform selbst hosten?
Ja. Da Nemotron 3 offene Gewichte hat, können Unternehmen das Modell auf eigener Infrastruktur oder bei europäischen Cloud-Anbietern betreiben. Keine Daten müssen an NVIDIA oder US-Server gesendet werden. Das macht es für DACH-Unternehmen mit strengen Datenschutzanforderungen besonders attraktiv.
