Foto von Josh Sorenson auf Pexels Source

ByteDances UI-TARS Desktop steuert Computer so, wie Menschen es tun: hinschauen, verstehen, klicken. Kein DOM-Parsing, kein Accessibility Tree, keine API-Integration. Der Agent macht einen Screenshot, analysiert das Bild, entscheidet, wo er klicken oder tippen soll, führt die Aktion aus und macht einen weiteren Screenshot zur Überprüfung. Das 72B-Modell erreicht 24,6% auf dem OSWorld-Benchmark und schlägt damit Anthropics Claude Computer Use (22,0%) und verdoppelt GPT-4os Baseline (12,2%). Das 7B-Modell läuft auf einer einzigen Consumer-GPU und kommt auf 18,8%, was lokalen Einsatz für Teams realistisch macht, die keine Bildschirmdaten an externe APIs senden können.

Dieser reine Visionsansatz macht UI-TARS besonders. Jedes andere Agent-Framework setzt strukturierten Zugang zur Zielanwendung voraus: Browser-DOM, REST-API oder MCP-Server. UI-TARS setzt nur eines voraus: Pixel auf einem Bildschirm. Damit ist es der einzige Open-Source-Agent, der Legacy-Desktop-Software, proprietäre Tools ohne API oder jede beliebige Anwendung automatisieren kann, deren einziges Interface eine grafische Oberfläche ist.

Weiterlesen: Browser-KI-Agenten: Web-Automatisierung 2026

So funktioniert die Agent-Schleife: Screenshots rein, Aktionen raus

UI-TARS Desktop basiert auf Electron und läuft auf macOS, Windows und Linux. Die Kernschleife ist direkt, wie in der Architekturdokumentation beschrieben:

  1. Screenshot aufnehmen über plattformnative APIs (CGWindowListCreateImage auf macOS, Win32 API auf Windows)
  2. Screenshot senden zusammen mit der Nutzeranweisung und dem Gesprächsverlauf an das Vision-Language-Modell
  3. Modell-Output parsen in strukturierte Aktions-Tokens: click(x, y), type('text'), scroll(direction), hotkey('ctrl+c'), wait() oder finished()
  4. Aktion ausführen über native OS-Eingabesimulation (robotjs/nut.js)
  5. Verifikations-Screenshot aufnehmen und mit dem erwarteten Ergebnis vergleichen
  6. Wiederholen, bis die Aufgabe erledigt ist oder das Modell finished() ausgibt

Der Verifikationsschritt ist entscheidend. Nach jeder Aktion fährt UI-TARS nicht blind fort. Der Agent vergleicht Vorher- und Nachher-Screenshots, und wenn die erwartete Zustandsänderung nicht eingetreten ist (ein Button wurde nicht geklickt, ein Menü hat sich nicht geöffnet), generiert das Modell einen Korrekturplan. ByteDance nennt das “System-2-Reflexion”, angelehnt an Daniel Kahnemans Dual-Process-Theorie. In der Praxis bedeutet das: Der Agent wiederholt intelligent, statt eine fehlerhafte Sequenz blind abzuarbeiten.

Das Modell im Detail

UI-TARS basiert auf Qwen2-VL, Alibabas Vision-Language-Modell, und kommt in drei Größen:

  • UI-TARS-2B: Schnelle Inferenz, begrenzte Fähigkeiten. Geeignet für einfache, repetitive Aufgaben.
  • UI-TARS-7B-DPO: Der Sweet Spot für lokalen Betrieb. Passt auf eine Consumer-GPU (RTX 3090/4090 mit Quantisierung) und erreicht 18,8% auf OSWorld, mehr als GPT-4os 12,2%.
  • UI-TARS-72B-DPO: Vollmodell mit der besten Leistung. Braucht Cloud-Inferenz oder ein Multi-GPU-Setup.

Alle drei verarbeiten Screenshots mit bis zu 1344x1344 Pixeln und vereinen drei Fähigkeiten in einem einzigen Forward Pass: Wahrnehmung (verstehen, was auf dem Bildschirm ist), Grounding (UI-Elemente per Koordinaten lokalisieren) und Aktionsvorhersage (entscheiden, was als Nächstes zu tun ist). Keine separate OCR-Pipeline, kein Objekterkennungsmodell, keine Übergabe zwischen Komponenten.

Die Trainingspipeline, beschrieben im arXiv-Paper, umfasst drei Stufen: großflächiges GUI-Wahrnehmungs-Pretraining über Web-, Desktop- und Mobile-Interfaces; Supervised Fine-Tuning auf menschlichen Aktionspfaden; und iteratives DPO (Direct Preference Optimization), bei dem der Agent autonom Aufgaben versucht. Erfolgreiche Durchläufe werden zu positiven Trainingsbeispielen, gescheiterte zu negativen. Diese Selbstverbesserungsschleife über mehrere Iterationen erklärt, warum auch das kleine 7B-Modell erstaunlich gut abschneidet.

Benchmark-Check: Was 24,6% tatsächlich bedeuten

Die Schlagzeile von 24,6% auf OSWorld klingt niedrig. Die menschliche Leistung auf demselben Benchmark liegt bei 72,4%. Aber der Kontext zählt: OSWorld testet Agenten mit echten, mehrstufigen Desktop-Aufgaben (Software installieren, Systemeinstellungen konfigurieren, Dateien zwischen Anwendungen bewegen), und kein Agent kommt der menschlichen Leistung nahe. So sieht das Feld aus:

AgentOSWorld (nur Screenshot)
UI-TARS-72B-DPO24,6%
Claude 3.5 Computer Use22,0%
GPT-4o Baseline12,2%
SeeAct (GPT-4V)11,3%
CogAgent4,3%
Mensch72,4%

UI-TARS-72B führt mit 2,6 Prozentpunkten vor Claude Computer Use, ein signifikanter Abstand in einem Benchmark, in dem die meisten Modelle unter 15% bleiben. Auf WebArena (reine Web-Aufgaben) erreicht UI-TARS-72B 52,1%. Auf AndroidWorld (Mobil) kommt allein das 7B-Modell auf 46,6%.

Die praktische Erkenntnis: Diese Agenten bewältigen routinemäßige Mehrschritt-Aufgaben zuverlässig (Formulare ausfüllen, Daten zwischen Anwendungen übertragen, Menüs navigieren), scheitern aber bei Aufgaben, die neuartiges Problemlösen oder tiefes Anwendungswissen erfordern. Planen Sie mit 70-80% Automatisierung repetitiver Workflows, nicht mit voller Autonomie.

Weiterlesen: KI-Agent-Frameworks Tier List 2026: ADK, Mastra und OpenAI Agents SDK mischen mit

Visionsbasierte vs. DOM-basierte Agenten: Der echte Kompromiss

Das KI-Agent-Ökosystem hat sich in zwei Lager gespalten, und UI-TARS steht klar in einem davon.

DOM-basierte Agenten (Browser Use, Playwright MCP, Chrome WebMCP) parsen das strukturierte Dokumentenmodell von Webseiten. Sie wissen exakt, wo jeder Button, Link und jedes Eingabefeld ist, weil der Browser es ihnen sagt. Das macht sie schnell und zuverlässig für Web-Automatisierung: Sie klicken einen Button über seinen CSS-Selektor, nicht über geschätzte Pixelkoordinaten.

Visionsbasierte Agenten (UI-TARS, Claude Computer Use) arbeiten mit rohen Pixeln. Sie empfangen einen Screenshot und müssen alles aus dem Bild erschließen: welche Anwendung offen ist, wo die Buttons sind, was Text sagt, in welchem Zustand die Oberfläche ist. Das ist schwerer und langsamer, funktioniert aber mit buchstäblich allem, was einen Bildschirm hat.

DimensionDOM-basiert (Browser Use, Playwright)Visionsbasiert (UI-TARS, Claude Computer Use)
GeschwindigkeitSchnell (direkter Elementzugriff)Langsam (Screenshot + VLM-Inferenz)
Zuverlässigkeit im WebHoch (strukturierte Daten)Mittel (visuelle Ambiguität)
Desktop-App-UnterstützungKeineVollständig
Legacy-SoftwareKeineVollständig
API-AbhängigkeitBraucht Browser-APIsBraucht nur einen Bildschirm
Lokaler BetriebBraucht LLM-APIUI-TARS 7B läuft lokal
DatenschutzDaten fließen zum LLM-AnbieterKann auf dem Gerät bleiben

Für reine Web-Automatisierung sind DOM-basierte Agenten schneller und zuverlässiger. Für die Automatisierung von SAP, Excel, einem Legacy-ERP-System oder einer beliebigen Desktop-Anwendung ohne programmatischen Zugang sind visionsbasierte Agenten die einzige Option neben klassischer RPA. UI-TARS ist die erste Open-Source- und Open-Weight-Lösung in diesem Bereich.

Weiterlesen: Hyperautomation 2026: Warum KI-Agenten RPA nicht ersetzen, sondern verschlucken

Wo das zählt: Legacy-Software und Datensouveränität

Der stärkste Anwendungsfall für UI-TARS ist nicht die Automatisierung von Chrome. Browser-Agenten machen das besser. Der stärkste Fall ist die Automatisierung von Anwendungen, die sich gegen Automatisierung sperren: das SAP-GUI, das nur Tastaturkürzel akzeptiert, das Krankenhaus-Informationssystem von 2008, die Versicherungs-Underwriting-Software, die nur auf Windows läuft. Diese Anwendungen haben keine API, kein DOM, keine MCP-Unterstützung und keine Pläne, das zu ändern. Seit Jahrzehnten automatisieren RPA-Tools sie über spröde, pixelkoordinatenbasierte Skripte, die bei jedem UI-Update brechen.

UI-TARS ersetzt diese spröden Skripte durch ein Modell, das tatsächlich versteht, was es sieht. Wenn ein Button nach einem Update 20 Pixel nach rechts wandert, bricht ein klassisches RPA-Skript. UI-TARS liest die Beschriftung und klickt trotzdem.

Für Unternehmensteams in regulierten Branchen (Banken, Versicherungen, Gesundheitswesen) ist die Fähigkeit des 7B-Modells, lokal zu laufen, der versteckte Vorteil. Bildschirmdaten verlassen nie den Rechner. Keine Screenshots an Anthropic oder OpenAI. Für Organisationen, die an die DSGVO oder branchenspezifische Regularien gebunden sind, ist das der Unterschied zwischen “machbar” und “Compliance-Albtraum.” Gerade im DACH-Raum, wo der EU AI Act und strenge Datenschutzrichtlinien gelten, wiegt dieser Vorteil besonders schwer.

Einstieg: Was Sie konkret brauchen

Um UI-TARS Desktop zu betreiben:

  • Für das 7B-Modell (lokal): Eine GPU mit 16 GB+ VRAM (RTX 3090, 4090 oder vergleichbar). Mit 4-Bit-Quantisierung reichen 12 GB VRAM, aber langsamer.
  • Für das 72B-Modell (Cloud): API-Zugang zu einem Cloud-Inferenz-Anbieter mit dem Modell, oder ein Multi-GPU-Setup mit 4x A100 80 GB oder vergleichbar.
  • Die Electron-App: Download von der GitHub-Releases-Seite. Funktioniert auf macOS, Windows und Linux.

Die Konfiguration ist unkompliziert: Die App auf den Modell-Endpunkt zeigen (lokal oder remote), eine Anweisung in natürlicher Sprache geben und zuschauen. Die App blendet Aktions-Annotationen auf dem Bildschirm ein, sodass Sie genau sehen, was der Agent tut, und bei Bedarf eingreifen können.

Eine praktische Warnung: Die Inferenzgeschwindigkeit beim 72B-Modell liegt bei etwa 3-5 Sekunden pro Aktionszyklus (Screenshot-Aufnahme, Modell-Inferenz, Aktionsausführung). Für eine Aufgabe mit 20 Schritten rechnen Sie mit 60-100 Sekunden insgesamt. Das 7B-Modell ist schneller mit ~1-2 Sekunden pro Zyklus, macht aber mehr Fehler und braucht mehr Korrekturschritte. Keines ist schnell genug für Echtzeit-Interaktion; das ist ein Werkzeug für die Batch-Automatisierung repetitiver Aufgaben, kein Mausersatz.

Weiterlesen: Physical AI: Wenn Software-Agenten einen Körper bekommen

Häufig gestellte Fragen

Was ist ByteDance UI-TARS Desktop?

UI-TARS Desktop ist eine Open-Source-GUI-Agent-Anwendung von ByteDance, die beliebige Computeranwendungen über natürlichsprachliche Anweisungen steuert. Sie funktioniert über Screenshots, versteht die Oberfläche durch ein Vision-Language-Modell und führt Maus- und Tastaturaktionen aus. Sie läuft auf macOS, Windows und Linux unter der Apache-2.0-Lizenz.

Wie schneidet UI-TARS im Vergleich zu Claude Computer Use ab?

UI-TARS-72B-DPO erreicht 24,6% auf dem OSWorld-Benchmark und schlägt damit Claude Computer Use mit 22,0%. Der Hauptunterschied: UI-TARS ist Open Source und Open Weight. Das 7B-Modell kann komplett lokal laufen, ohne Daten an externe APIs zu senden. Claude Computer Use erfordert API-Aufrufe an Anthropic und bietet keine lokale Option.

Kann UI-TARS Desktop lokal ohne Cloud-APIs laufen?

Ja. Das UI-TARS-7B-Modell läuft auf einer einzelnen Consumer-GPU mit 16 GB VRAM (wie einer RTX 3090 oder 4090). Mit 4-Bit-Quantisierung reichen 12 GB VRAM. Das 7B-Modell erreicht 18,8% auf OSWorld, weniger als die 24,6% des 72B-Modells, aber deutlich über der GPT-4o-Baseline von 12,2%.

Was ist der Unterschied zwischen visionsbasierten und DOM-basierten KI-Agenten?

DOM-basierte Agenten (wie Browser Use oder Playwright MCP) parsen das strukturierte HTML von Webseiten und interagieren über Selektoren mit Elementen. Sie sind schneller und zuverlässiger für Web-Automatisierung, funktionieren aber nur im Browser. Visionsbasierte Agenten (wie UI-TARS und Claude Computer Use) arbeiten mit Screenshots und können jede Anwendung mit sichtbarer Oberfläche automatisieren, einschließlich Desktop-Software und Legacy-Systeme, sind aber langsamer und weniger präzise bei Web-Aufgaben.

Ist UI-TARS Desktop DSGVO-konform einsetzbar?

Das 7B-Modell kann komplett lokal auf eigener Hardware laufen, sodass keine Bildschirmdaten den Rechner verlassen. Für Unternehmen im DACH-Raum, die an DSGVO und EU AI Act gebunden sind, eliminiert das die größte Compliance-Hürde. Bei Nutzung des 72B-Modells über Cloud-Inferenz gelten die üblichen Anforderungen an Auftragsverarbeitung und Datentransfer.