Ein weniger fähiger KI-Agent, der seine Arbeitsschritte zeigt, schlägt einen leistungsstarken Agenten, der im Verborgenen arbeitet. Das ist das zentrale Ergebnis von “Mapping the Design Space of User Experience for Computer Use Agents,” einer Studie, die am 12. Februar 2026 von vier Apple-Forschern veröffentlicht wurde: Ruijia Cheng, Jenny T. Liang, Eldon Schoop und Jeffrey Nichols. Sie testeten 20 Teilnehmer mit einer Wizard-of-Oz-Methodik, bei der die Forscher das Agentenverhalten in Echtzeit simulierten und bewusst Fehler sowie mehrdeutige Situationen einbauten. Die Teilnehmer bewerteten Transparenz, Vorhersagbarkeit und die Möglichkeit zum Eingreifen durchweg höher als reine Aufgabenerfüllung.
Dieses Ergebnis steht im Widerspruch zur aktuellen Branchenrichtung. OpenAI, Google und Microsoft haben das vergangene Jahr damit verbracht, um Agent-Fähigkeiten zu konkurrieren: schnellere Ausführung, breiterer Tool-Zugriff, autonomere Entscheidungsfindung. Apples Forschung legt nahe, dass sie für die falsche Variable optimieren. Die Frage ist nicht “Kann der Agent es tun?”, sondern “Vertraut der Nutzer dem Agenten genug, um ihn handeln zu lassen?”
Die Studie: Wie Apple Agent-UX getestet hat
Die Forschung lief in zwei Phasen ab. In Phase 1 analysierte das Team neun existierende KI-Agenten, darunter Claude Computer Use, OpenAI Operator und Googles Project Mariner, und befragte acht UX- und KI-Experten bei einem großen Technologieunternehmen. Daraus entstand eine Taxonomie mit 55 UX-Features in vier Kategorien und 21 Unterkategorien.
In Phase 2 folgte eine praktische Studie mit 20 erfahrenen KI-Nutzern. Die Teilnehmer interagierten über eine Chat-Oberfläche, um Aufgaben wie die Buchung von Ferienwohnungen oder Online-Shopping anzufordern. Im Hintergrund führten die Forscher die Aufgaben manuell in Echtzeit aus und simulierten so das Verhalten eines Computer-Use-Agenten. Bewusst wurden Fehler, mehrdeutige Auswahlmöglichkeiten und riskante Aktionen eingebaut, um die Reaktionen der Nutzer zu beobachten.
Der Wizard-of-Oz-Ansatz eliminierte die Variabilität tatsächlicher KI-Leistung. Alle Teilnehmer erlebten dasselbe Agentenverhalten. Damit messen die Ergebnisse Nutzererwartungen, nicht Modellfähigkeiten.
Die vier UX-Kategorien
Die resultierende Taxonomie umfasst vier Bereiche, die jedes Team beim Bau von Computer-Use-Agenten adressieren muss:
Nutzereingabe (User Query): Wie Nutzer dem Agenten Aufgaben mitteilen. Natürliche Sprache, strukturierte Eingaben oder hybride Ansätze. Teilnehmer wollten Ziele auf hoher Ebene formulieren (“Finde mir eine Ferienwohnung unter 150 Euro pro Nacht am Strand”), ohne jeden Klick vorschreiben zu müssen.
Erklärbarkeit (Explainability): Wie der Agent kommuniziert, was er tut und warum. Hier traten die stärksten Ergebnisse der Studie zutage. Nutzer wollten einen laufenden Kommentar zu den Aktionen des Agenten, nicht nur Endergebnisse. Sie wollten sehen, welche Webseiten der Agent besuchte, welche Optionen er in Betracht zog und warum er bestimmte Entscheidungen traf.
Nutzerkontrolle (User Control): Wie Nutzer eingreifen, umlenken oder den Agenten überstimmen können. Teilnehmer wollten einfache Mechanismen, um die Ausführung zu pausieren, Aktionen rückgängig zu machen und den Ansatz des Agenten mitten in der Aufgabe zu ändern. Zu viele Bestätigungsaufforderungen machten den Agenten nutzlos, zu wenige erodierten das Vertrauen komplett.
Mentale Modelle (Mental Models): Wie Nutzer sich vorstellen, was der Agent ist und wie er sich verhalten sollte. Diese Kategorie brachte einige der aufschlussreichsten Erkenntnisse.
Die mentale Modell-Spaltung: Assistent vs. Werkzeug
Die Teilnehmer griffen auf eines von zwei mentalen Modellen zurück, und welches Modell sie nutzten, veränderte ihre gesamten Erwartungen grundlegend.
Das Assistenz-Modell: Nutzer, die den Agenten als Assistenten betrachteten, erwarteten Fingerspitzengefühl, geschickten Umgang mit Mehrdeutigkeiten und proaktives Aufzeigen relevanter Informationen. Wenn der Agent eine Ferienwohnung fand, die leicht über Budget lag, aber deutlich bessere Bewertungen hatte, wollten diese Nutzer darüber informiert werden. Sie erwarteten, dass der Agent ihre Präferenzen mit der Zeit lernt und zunehmend eigenständiger entscheidet.
Das Werkzeug-Modell: Nutzer, die den Agenten als Werkzeug sahen, erwarteten präzise, wörtliche Ausführung. “Unter 150 Euro pro Nacht” hieß genau das. Diese Nutzer reagierten frustriert, wenn der Agent von Anweisungen abwich, selbst wenn die Abweichung objektiv hilfreich war. Sie wollten vorhersagbares Verhalten und explizite Bestätigung vor jeder nicht direkt angewiesenen Aktion.
Das Problem für Agent-Entwickler: Derselbe Nutzer wechselt oft zwischen diesen Modellen, abhängig von der Aufgabe und den damit verbundenen Risiken. Jemand möchte vielleicht Assistenz-Niveau-Ermessensspielraum beim Stöbern nach Urlaubsoptionen, aber Werkzeug-Niveau-Präzision bei der Eingabe von Zahlungsdaten. Wie die Computerworld-Analyse festhielt, müssen Agent-Designs beide mentalen Modelle gleichzeitig bedienen.
Das deckt sich direkt mit dem, was in der Praxis beim Produktions-Agent-Design zu beobachten ist. Die besten Implementierungen nutzen progressive Offenlegung von Autonomie: Sie beginnen mit eng überwachten, umkehrbaren Aktionen und erweitern die Eigenständigkeit des Agenten schrittweise, während er bei jedem Nutzer eine Erfolgsbilanz aufbaut.
Vertrautheit verändert alles
Eine der praktischsten Erkenntnisse der Studie: Nutzererwartungen verschieben sich dramatisch, je nachdem wie vertraut sie mit der Oberfläche sind, die der Agent steuert.
Wenn Teilnehmer eine Webseite oder Anwendung nicht kannten, wollten sie maximale Transparenz. Sie verlangten Zwischenschritte, Erklärungen zu den Aktionen des Agenten, Bestätigungspausen vor Aktionen und die Möglichkeit, den Bildschirm zu sehen, mit dem der Agent interagierte. Das galt sogar für risikoarme Szenarien. Ein Nutzer, der eine bestimmte Reisebuchungsseite nie benutzt hatte, wollte eine Bestätigung, bevor der Agent auf “Suchen” klickte. Nicht weil Suchen riskant ist, sondern weil er nicht vorhersagen konnte, was als Nächstes passiert.
Wenn Teilnehmer die Oberfläche gut kannten, stieg ihre Toleranz für autonomes Handeln deutlich an. Sie waren damit einverstanden, dass der Agent mehrstufige Sequenzen ohne Unterbrechung ausführte, weil sie die Ergebnisse vorhersagen konnten. Falls etwas schiefging, wussten sie, wie sie es beheben konnten.
Die Implikation für Agent-Entwickler: Transparenzanforderungen sind nicht statisch. Ein Einheitsansatz für Bestätigungen und Erklärungen wird entweder erfahrene Nutzer nerven oder unerfahrene verschrecken. Die KPMG-Studie “Trust in AI”, die 48.000 Menschen in 47 Ländern befragte, ergab: Nur 46% der Menschen, die KI regelmäßig nutzen, vertrauen ihr tatsächlich. Vertrautheit mit der Oberfläche ist einer der stärksten Hebel, um diese Lücke zu schließen.
Für den DACH-Raum ist das besonders relevant. Deutsche Nutzer zeigen traditionell höhere Datenschutz- und Kontrollerwartungen. Wenn schon im globalen Schnitt nur die Hälfte der KI-Nutzer Vertrauen aufbringt, dürfte die Schwelle in Deutschland, Österreich und der Schweiz noch höher liegen. Das EU-KI-Gesetz (AI Act) setzt mit seinen Transparenzanforderungen für Hochrisiko-Systeme genau hier an.
Hohe Einsätze erfordern hohe Kontrolle
Die Studie bestätigte, was die meisten Designer intuitiv wissen, aber selten messen: Nutzer verlangen signifikant mehr Kontrolle, wenn die Aktionen eines Agenten reale Konsequenzen haben.
Aktionen, die den stärksten Kontrollbedarf auslösten:
- Finanztransaktionen: Einkäufe tätigen, Zahlungsdaten ändern, Rückerstattungen verarbeiten
- Kommunikation im Namen des Nutzers: E-Mails senden, Nachrichten posten, andere Personen kontaktieren
- Kontoänderungen: Passwörter ändern, persönliche Informationen aktualisieren, Abo-Einstellungen modifizieren
- Irreversible Aktionen: Dateien löschen, Reservierungen stornieren, Bewerbungen absenden
Vertrauen brach am schnellsten zusammen, wenn Agenten bei diesen risikoreichen Aktionen stillschweigend Annahmen trafen. Ein Teilnehmer tolerierte vielleicht, dass der Agent ein Hotelzimmer der Mittelklasse ohne Rückfrage auswählte. Aber sobald der Agent Kreditkartendaten ohne ausdrückliche Bestätigung eingab, war das Vertrauen zerstört. Der Wiederaufbau dauerte deutlich länger als der ursprüngliche Aufbau.
Die Apple-Forscher empfahlen, dass “Agent-Designs bewusst Nähte sichtbar machen sollten (seamfulness)”, wobei Nutzerverständnis und die Handlungsfähigkeit der Nutzer bei Eingriff priorisiert werden, besonders in Situationen mit Ambiguität und Unsicherheit. “Seamfulness” bedeutet hier bewusst sichtbare Bruchstellen in der Interaktion: Momente, in denen der Agent sein Vorgehen offenlegt und die Kontrolle an den Nutzer zurückgibt, statt auf glatte, unsichtbare Ausführung zu optimieren.
Das deckt sich mit den Erkenntnissen aus der Analyse von unkontrollierten KI-Agenten im Unternehmenseinsatz. Der Gravitee-Bericht 2026 fand heraus, dass 88% der Organisationen einen Sicherheitsvorfall mit KI-Agenten erlebt oder vermutet haben. Die Ursache war fast immer dieselbe: Agenten, die ohne ausreichende menschliche Checkpoints agierten.
Was das für die Branche bedeutet
Apple baut noch keinen Allzweck-KI-Agenten. Siri hat Funktionen dazugewonnen, Apple Intelligence erledigt Aufgaben auf dem Gerät, aber Apple hat noch nichts Vergleichbares zu OpenAIs Operator oder Anthropics Claude Computer Use ausgeliefert. Diese Studie liest sich wie ein Design-Briefing für das, was als Nächstes kommt: Apple kartiert systematisch, was Nutzer tatsächlich wollen, bevor es gebaut wird.
Dieser Ansatz steht im Gegensatz zum Rest der Branche. Googles Project Mariner, Microsofts Copilot-Agenten und OpenAIs Operator starteten alle mit Fähigkeiten zuerst und iterierten dann auf Basis von Nutzerfeedback an Vertrauen und Transparenz. Apples Forschung legt nahe, mit Vertrauen zu beginnen und Fähigkeiten darauf aufzubauen.
Drei konkrete Design-Prinzipien ergeben sich aus der Studie:
1. Progressive Offenlegung von Autonomie. Agenten im überwachten Modus starten, in dem sie jede Aktion erklären und häufig Bestätigung anfordern. Während der Nutzer Vertrautheit gewinnt, Unterbrechungen schrittweise reduzieren und den Handlungsspielraum des Agenten erweitern.
2. Unterstützung für beide mentale Modelle. Agent-Interfaces müssen Nutzer bedienen, die den Agenten als Assistenten sehen, und Nutzer, die ihn als Werkzeug sehen, manchmal innerhalb derselben Sitzung. Praktisch bedeutet das: proaktive Vorschläge (Assistenz-Modus) und strikte Anweisungsbefolgung (Werkzeug-Modus) anbieten, mit klaren Signalen, welcher Modus aktiv ist.
3. Seamful Design für risikoreiche Aktionen. Statt in jedem Szenario auf unsichtbare, reibungslose Ausführung zu optimieren, bewusst sichtbare Checkpoints für folgenschwere Aktionen einbauen. Die Kosten eines zusätzlichen Bestätigungsdialogs vor einer Zahlung sind vernachlässigbar. Die Kosten einer nicht autorisierten Zahlung nicht.
Das übergeordnete Signal: Das Agent-UX-Problem könnte schwieriger sein als das Agent-Fähigkeits-Problem. Modelle werden immer leistungsfähiger. Aber KPMGs Erkenntnis, dass das Vertrauen in KI bei steigender Nutzung sogar gesunken ist, zeigt: Fähigkeit allein erzeugt kein Vertrauen. Die Branche muss Transparenz und Kontrolle mit derselben Ingenieursrigorosität angehen wie Benchmarks und Token-Durchsatz.
Häufig gestellte Fragen
Was hat Apples KI-Agent-UX-Studie herausgefunden?
Apples Studie vom Februar 2026 “Mapping the Design Space of User Experience for Computer Use Agents” ergab, dass Nutzer transparente KI-Agenten fähigeren vorziehen. Teilnehmer bewerteten Transparenz, Vorhersagbarkeit und die Möglichkeit zum Eingreifen höher als reine Aufgabenerfüllung. Die Studie testete 20 Nutzer mit einer Wizard-of-Oz-Methodik und identifizierte vier kritische UX-Kategorien: Nutzereingabe, Erklärbarkeit, Nutzerkontrolle und mentale Modelle.
Warum bevorzugen Nutzer transparente KI-Agenten?
Nutzer bevorzugen transparente KI-Agenten, weil sie verstehen müssen, was der Agent tut, um ihm vertrauen zu können. Die Apple-Studie fand heraus, dass Vertrauen schnell zusammenbricht, wenn Agenten stillschweigend Annahmen treffen oder Fehler machen. Nutzer wollen einen laufenden Kommentar zu den Aktionen des Agenten, die Möglichkeit jederzeit einzugreifen und klare Erklärungen für Entscheidungen des Agenten, besonders bei risikoreichen Aufgaben wie Finanztransaktionen oder Kommunikation in ihrem Namen.
Was ist das Assistenz- vs. Werkzeug-Modell bei KI-Agenten?
Apples Studie fand heraus, dass Nutzer zwischen zwei mentalen Modellen wechseln. Im Assistenz-Modell erwarten Nutzer Fingerspitzengefühl, geschickten Umgang mit Mehrdeutigkeiten und proaktive Alternativvorschläge. Im Werkzeug-Modell erwarten Nutzer präzise, wörtliche Ausführung von Anweisungen ohne Abweichung. Derselbe Nutzer wechselt oft zwischen diesen Modellen je nach Aufgabenkomplexität und Risiko, was bedeutet, dass Agent-Interfaces beide gleichzeitig unterstützen müssen.
Wie beeinflusst Vertrautheit das Vertrauen in KI-Agenten?
Die Apple-Studie ergab, dass die Vertrautheit mit der Oberfläche, die der Agent steuert, das Vertrauensniveau dramatisch verändert. Nutzer, die eine Webseite oder Anwendung nicht kannten, verlangten maximale Transparenz, einschließlich Bestätigungspausen selbst bei risikoarmen Aktionen. Nutzer, die die Oberfläche gut kannten, tolerierten deutlich mehr autonomes Agentenverhalten. Das bedeutet, dass Transparenzanforderungen nicht statisch sind und Agenten ihre Bestätigungshäufigkeit an den Erfahrungsstand des Nutzers anpassen sollten.
Was ist progressive Offenlegung von Autonomie bei KI-Agenten?
Progressive Offenlegung von Autonomie bedeutet, KI-Agenten in einem überwachten Modus zu starten, in dem sie jede Aktion erklären und häufig Bestätigung anfordern, und dann die Unterbrechungen schrittweise zu reduzieren, wenn der Nutzer Vertrautheit gewinnt. Apples Studie unterstützt diesen Designansatz, weil sie feststellte, dass Nutzervertrauen sich über positive Interaktionen aufbaut und erfahrene Nutzer weniger Unterbrechungen wollen, während neue Nutzer mehr Transparenz brauchen.
