Foto von Manuel Geissinger auf Pexels (freie Lizenz) Source

Wo laufen KI-Agenten eigentlich? Nicht die Modellinferenz, die übernimmt Azure OpenAI oder ein anderer LLM-Anbieter. Der andere Teil. Der Teil, bei dem ein Agent Excel öffnen, ein Formular in SAP ausfüllen, durch eine Legacy-Webanwendung klicken oder mit Software interagieren muss, die keine API hat. Windows 365 for Agents stellt für genau diese Workloads dedizierte Cloud-PCs bereit, zu 0,40 $ pro Stunde, verwaltet über die gleiche Intune- und Entra-ID-Infrastruktur, die Unternehmen bereits für ihre menschlichen Mitarbeiter nutzen.

Das ist keine VM, die man aufspannt und per SSH betritt. Es ist eine vollständige Windows-Desktop-Umgebung, mit der Computer-Use-Agenten visuell interagieren: Bildschirme lesen, Buttons klicken, Felder ausfüllen, genau so, wie es ein menschlicher Sachbearbeiter am Schreibtisch tun würde.

Weiterlesen: Windows als Agent-OS: Microsofts On-Device Registry und was sie für Enterprise-KI bedeutet

Wie Computer-Use-Agenten auf Windows 365 funktionieren

Die Agenten auf Windows 365 for Agents sind keine klassischen RPA-Bots mit fest programmierten Selektoren. Es sind Computer-Use-Agenten (CUAs), die Bildschirminhalte mit KI-Visions-Modellen interpretieren, über das Gesehene nachdenken und eigenständig entscheiden, was als Nächstes zu tun ist. Man gibt dem KI-Agenten eine Remote-Desktop-Sitzung und sagt: “Verarbeite diese Rechnung.”

Der Agent erstellt einen Screenshot des aktuellen Bildschirmzustands. Ein Visions-Modell (typischerweise GPT-4o oder vergleichbar) interpretiert, was auf dem Bildschirm zu sehen ist: Buttons, Textfelder, Dropdown-Menüs, Fehlermeldungen. Das Modell generiert einen Aktionsplan: diesen Button klicken, diesen Text eingeben, herunterscrollen, auf dieses Element warten. Die Aktion wird ausgeführt, ein neuer Screenshot wird erstellt, und die Schleife beginnt von vorn.

Warum das wichtiger ist als API-Integration

Die offensichtliche Frage: Warum nicht einfach API-Integrationen bauen? Drei Gründe.

Erstens: Die meisten Unternehmenssoftware-Systeme haben keine umfassenden APIs. SAPs GUI, interne Legacy-Tools aus den 2000ern, Behördenportale, Versicherungs-Schadenssysteme: Diese Anwendungen wurden für Menschen an Bildschirmen gebaut. Sie mit API-Zugang nachzurüsten, würde Jahre dauern und Millionen kosten. Ein Computer-Use-Agent kann morgen damit arbeiten.

Zweitens: CUAs passen sich an, wenn sich Oberflächen ändern. Ein klassischer RPA-Bot bricht, wenn ein Button drei Pixel nach rechts rutscht oder ein Formularfeld umbenannt wird. Ein visionsbasierter Agent verarbeitet das, was er sieht, semantisch. Er versteht, dass “Absenden” und “Senden” dieselbe Absicht meinen, auch wenn sich das Label zwischen Softwareversionen ändert.

Drittens: Compliance. Viele regulierte Prozesse erfordern, dass Aktionen über dieselbe Oberfläche laufen, die ein menschlicher Prüfer nachvollziehen kann. Ein Agent, der über die GUI arbeitet, erzeugt denselben Audit-Trail wie ein menschlicher Sachbearbeiter. Für den Wirtschaftsprüfer von KPMG oder PwC ist das deutlich einfacher nachzuvollziehen als eine Reihe von API-Aufrufen. Gerade für DACH-Unternehmen, die unter besonderem regulatorischen Druck stehen (DSGVO, EU AI Act, GoBD), ist diese Nachvollziehbarkeit ein echtes Argument.

Weiterlesen: KI-Agent-Produktionsprobleme 2026: Zuverlässigkeit, halluzinierte Aktionen und die Monitoring-Lücke

Die Check-in/Check-out-Architektur

Windows 365 for Agents arbeitet mit einem Pool-basierten Modell, das Konzepte aus der Verwaltung gemeinsam genutzter Arbeitsplätze übernimmt. IT-Administratoren erstellen Host-Pools von Cloud-PCs, vorkonfiguriert mit den richtigen Anwendungen und Sicherheitsrichtlinien.

Wenn ein Agent arbeiten muss, checkt er einen Cloud-PC aus dem Pool aus. Der Agent erhält eine isolierte Windows-Umgebung mit eigener Sitzung, eigenem Dateisystem und eigenem Anwendungsstatus. Wenn die Aufgabe erledigt ist, checkt der Agent den Cloud-PC wieder ein, und die Umgebung wird für den nächsten Agenten zurückgesetzt.

Zwei Pool-Typen decken unterschiedliche Latenzanforderungen ab:

Warme Pools halten Cloud-PCs vorab bereitgestellt und einsatzbereit. Ein Agent kann innerhalb von Sekunden mit der Arbeit beginnen. Die richtige Wahl für kundennahe Workflows, bei denen Reaktionszeit zählt, etwa die Bearbeitung eines Support-Tickets, das Informationen aus mehreren Legacy-Systemen erfordert.

Kalte Pools provisionieren Cloud-PCs bei Bedarf. Der Start dauert länger (Minuten statt Sekunden), aber man zahlt nur, wenn Agenten aktiv arbeiten. Batch-Verarbeitungsjobs, die nachts laufen, wie der Abgleich von Daten über verschiedene Systeme, passen zu diesem Modell.

Kostenrealitäten

Bei 0,40 $ pro Stunde (aufgerundet auf die nächste volle Stunde) kostet eine einzelne Agentenaufgabe, die 15 Minuten dauert, 0,40 $. Ein Agent, der kontinuierlich 8 Stunden läuft, kostet 3,20 $ pro Tag oder etwa 70 $ pro Monat bei 22 Arbeitstagen.

Zum Vergleich: Ein menschlicher Sachbearbeiter, der die gleiche repetitive GUI-Arbeit erledigt, kostet in Deutschland 25-45 Euro pro Stunde (Zeitarbeitsfirma) oder 3.500-5.500 Euro monatlich (Festanstellung mit Lohnnebenkosten). Der Agent ist 30-60x günstiger pro Stunde, vorausgesetzt, er kann die Aufgabe zuverlässig bewältigen.

Aber die Aufrundung zählt. Wenn ein Agentenworkflow viele kurze Aufgaben umfasst (2-3 Minuten pro Aufgabe), wird jede als volle Stunde berechnet. Das Bündeln von Aufgaben zu längeren Sitzungen wird zu einem Optimierungsproblem, das es vorher nicht gab.

Agent 365: Die Steuerungszentrale

Windows 365 for Agents liefert die Rechenleistung. Agent 365, das am 1. Mai 2026 allgemein verfügbar wird, liefert die Governance-Schicht. Man kann es sich als “Personalabteilung” für KI-Agenten vorstellen: Es kümmert sich um Identität, Berechtigungen, Monitoring und Lifecycle-Management.

Jeder Agent erhält eine Agent-ID in Microsoft Entra ID. Das bedeutet: Agenten unterliegen denselben Conditional-Access-Richtlinien, Least-Privilege-Modellen und Zero-Trust-Prinzipien wie menschliche Nutzer. Ein Agent, der Spesenabrechnungen verarbeitet, kann auf die Finanzanwendungen beschränkt werden, die er braucht, und zwar nur während der Geschäftszeiten und von bestimmten Netzwerkstandorten aus.

Weiterlesen: Microsoft Agent 365: Die Steuerungsebene für KI-Agenten im Unternehmen

Was Agent 365 verwaltet

Erkennung und Katalog. Ein zentrales Register, in dem Unternehmen alle eingesetzten Agenten sehen können, ob von Microsoft, Drittanbietern oder internen Teams gebaut. Schluss mit Schatten-Agenten, von denen die IT-Abteilung nichts weiß.

Governance-Richtlinien. Administratoren definieren, worauf Agenten zugreifen dürfen, welche Daten sie verarbeiten dürfen und welche Aktionen eine menschliche Genehmigung erfordern. Diese Richtlinien folgen dem Agenten über verschiedene Ausführungsumgebungen hinweg, einschließlich Windows 365 Cloud-PCs.

Monitoring und Audit. Echtzeit-Transparenz darüber, was Agenten tun, mit screenshot-basierten Audit-Trails für Cloud-PC-Sitzungen. Wenn ein Agent etwas Unerwartetes tut, zeigt der Audit-Trail genau, was er gesehen und geklickt hat.

Lifecycle-Management. Bereitstellung, Aktualisierung und Stilllegung von Agenten über dieselben Change-Management-Prozesse, die Unternehmen für andere Software nutzen. Agenten-Versionierung, Rollback-Fähigkeiten und gestaffelte Rollouts sind integriert.

Weiterlesen: Microsofts Agent-Frameworks: AutoGen, Semantic Kernel und der Copilot-Stack erklärt

Der M365-E7-Schachzug: Agenten als lizenzierte Mitarbeiter

Microsoft führt mit Microsoft 365 E7 auch eine neue Lizenzstufe ein: 99 $/Nutzer/Monat, ab dem 1. Mai zusammen mit Agent 365. Das Paket bündelt M365 E5 (60 $), Microsoft 365 Copilot (30 $), Entra Suite (12 $) und Agent 365 (15 $). Einzeln gekauft würde das 117 $ kosten, das Bundle spart also rund 15 %.

Das strategische Signal ist lauter als die Preisrechnung. Microsoft positioniert Agenten als Entitäten, die Lizenzen benötigen, genau wie Mitarbeiter. Ein Agent, der Rechnungen verarbeitet, braucht Zugang zu Outlook (Rechnungsempfang per E-Mail), SharePoint (Dokumentenablage), Teams (Benachrichtigung bei Ausnahmen) und Entra ID (Identität). Dieses Berechtigungsprofil sieht verdächtig nach der Lizenz eines menschlichen Mitarbeiters aus.

Für die IT-Budgetplanung in DACH-Unternehmen schafft das eine interessante Dynamik. Heute plant man Headcount und Lizenzzahlen gemeinsam. Morgen muss man Agentenzahlen zusammen mit beidem planen. Eine Abteilung könnte 50 menschliche Mitarbeiter und 200 lizenzierte Agenten haben, jeweils mit unterschiedlichen Berechtigungsprofilen, aber alle verbrauchen Microsoft-365-Ressourcen.

Wer bereits auf Windows 365 for Agents baut

Microsoft hat diesen Dienst nicht im luftleeren Raum gestartet. Mehrere Agent-Building-Unternehmen sind bereits Teil des Programms:

Manus AI nutzt Windows 365 Cloud-PCs für intelligente PowerPoint-Erstellungs- und Bearbeitungsworkflows. Ihre Agenten öffnen PowerPoint auf dem Cloud-PC, bearbeiten Folien basierend auf natürlichsprachlichen Anweisungen und speichern die Ergebnisse. Das funktioniert mit der vollständigen PowerPoint-Desktop-Anwendung, nicht nur mit der eingeschränkten API.

Fellou baut einen agentischen Browser, der KI mit täglichen Web-Workflows verbindet. Windows 365 gibt Fellous Agenten eine isolierte Browser-Umgebung, in der sie Websites durchsuchen, Formulare ausfüllen und Informationen extrahieren können, ohne den lokalen Rechner des Nutzers zu berühren.

Genspark konzentriert sich auf Marketing-Inhalte und Folienerstellung. Ihre Agenten nutzen die Cloud-PC-Umgebung, um mit Design-Tools und Content-Management-Systemen zu arbeiten, die nur GUI-Oberflächen haben.

Simular, das eine Serie-A-Finanzierung von 21,5 Millionen Dollar eingesammelt hat, war einer der frühen Partner. Ihre Agententechnologie spezialisiert sich auf die Steuerung von Desktop-Anwendungen durch visuelles Verstehen.

Was an diesen Partnern auffällt: Keiner von ihnen baut klassische Chatbots oder reine API-Agenten. Sie alle brauchen eine echte Desktop-Umgebung für ihre Arbeit. Genau diese Nische füllt Windows 365 for Agents.

Was Enterprise-Teams jetzt evaluieren sollten

Wer KI-Agent-Workloads im Unternehmen betreibt oder plant, sollte drei Dinge klären, bevor Agent 365 am 1. Mai allgemein verfügbar wird:

GUI-abhängige Prozesse inventarisieren. Welche Workflows erfordern aktuell, dass Menschen durch Anwendungen klicken? Welche davon sind repetitiv genug, dass ein Computer-Use-Agent sie übernehmen könnte? Beginnen Sie mit Prozessen, für die Sie bereits RPA-Bots einsetzen, denn dort ist die GUI-Automatisierung bereits als tauglich erwiesen, und CUAs können die Fälle abdecken, an denen RPA scheitert.

Kosten modellieren. 0,40 $/Stunde klingt günstig, bis man es mit Hunderten von Agenten und Tausenden von Aufgaben pro Tag multipliziert. Bilden Sie erwartete Aufgabenvolumen, durchschnittliche Aufgabendauer und den Einfluss der Stundenaufrundung ab. Für viele Workloads ist die Rechnung gegenüber menschlichen Sachbearbeitern immer noch klar zugunsten der Agenten, aber man braucht die echte Zahl, nicht die Marketingzahl.

Identitätsarchitektur planen. Agent 365 erfordert Entra-ID-Integration. Jeder Agent braucht eine Identität, ein Berechtigungsset und eine Governance-Richtlinie. Wenn Ihr Entra-Tenant bereits komplex ist (und welcher ist das nicht), dann ist das Hinzufügen von Hunderten Agenten-Identitäten ein Governance-Projekt, nicht nur ein technisches. Sprechen Sie jetzt mit Ihrem Identity-Team.

Häufig gestellte Fragen

Was ist Windows 365 for Agents?

Windows 365 for Agents ist ein Microsoft-Dienst, der KI-Agenten dedizierte Cloud-PCs bereitstellt. Computer-Use-Agenten erhalten eigene virtuelle Windows-Desktop-Umgebungen, in denen sie visuell mit Anwendungen interagieren, genau wie ein Mensch, mittels KI-Vision, um Bildschirme zu lesen und Aktionen auszuführen. Der Dienst wird über Intune und Entra ID verwaltet und zu 0,40 $ pro Stunde abgerechnet.

Wie viel kostet Windows 365 for Agents?

Windows 365 for Agents nutzt nutzungsbasierte Abrechnung zu 0,40 $ pro Stunde pro Cloud-PC-Sitzung. Die Nutzung wird auf die nächste volle Stunde aufgerundet, eine 15-minütige Aufgabe kostet also 0,40 $. Bei durchgehenden 8-Stunden-Arbeitstagen sind das etwa 3,20 $ pro Tag oder rund 70 $ pro Monat. Das kommende M365-E7-Bundle für 99 $/Nutzer/Monat kombiniert E5, Copilot, Entra Suite und Agent 365 Governance.

Was ist der Unterschied zwischen Windows 365 for Agents und klassischem RPA?

Traditionelle RPA-Bots verwenden fest programmierte Selektoren und Skripte, die brechen, wenn sich UI-Elemente ändern. Windows 365 for Agents führt Computer-Use-Agenten aus, die Bildschirme visuell mit KI-Visions-Modellen interpretieren. Diese Agenten verstehen UI-Elemente semantisch und passen sich an, wenn sich Buttons verschieben, Labels ändern oder Layouts zwischen Softwareversionen wechseln.

Was ist Microsoft Agent 365?

Agent 365 ist Microsofts Governance- und Steuerungsebene für KI-Agenten, allgemein verfügbar ab dem 1. Mai 2026. Es bietet Agent-Identitätsmanagement über Entra ID, Richtliniendurchsetzung, Monitoring mit Audit-Trails und Lifecycle-Management. Unternehmen können damit alle ihre Agenten entdecken, steuern und absichern, ob von Microsoft, Partnern oder internen Teams gebaut.

Welche Unternehmen bauen auf Windows 365 for Agents auf?

Frühe Partner sind Manus AI (intelligente PowerPoint-Erstellung), Fellou (agentischer Browser für Web-Workflows), Genspark (Marketing-Inhalte und Folienerstellung) und Simular (Desktop-Anwendungssteuerung durch visuelles Verstehen). Alle diese Unternehmen bauen Computer-Use-Agenten, die echte Desktop-Umgebungen benötigen.