Foto von Markus Spiske auf Unsplash Source

Browser-KI-Agenten haben die letzten zwei Jahre damit verbracht, das falsche Problem zu lösen. Sie lernten Screenshots zu interpretieren, DOM-Bäume zu parsen und Mausklicks auf Buttons zu simulieren, die für Menschen gemacht sind. Chrome 146 macht den Großteil davon überflüssig. WebMCP, ein W3C-Entwurfsstandard von Google und Microsoft gemeinsam entwickelt, erlaubt Websites, strukturierte, aufrufbare Tools direkt für KI-Agenten über eine neue Browser-API bereitzustellen: navigator.modelContext. Ein Agent, der bisher 15 Sekunden brauchte, um eine Seite zu screenshotten, interaktive Elemente zu erkennen und Klicks zu simulieren, ruft jetzt addToCart({ productId: "X12", quantity: 2 }) in Millisekunden auf.

Erste Benchmarks des Chrome-Teams zeigen 67% weniger Rechenaufwand gegenüber traditionellem DOM-Parsing und Screenshot-Analyse, bei 98% Aufgabengenauigkeit. Die Spezifikation wurde am 10. Februar 2026 als W3C Draft Community Group Report veröffentlicht; die Early Preview steckt bereits in Chrome 146 Canary hinter einem Feature-Flag.

Weiterlesen: Browser-KI-Agenten: Web-Automatisierung 2026

Was WebMCP ist (und was nicht)

WebMCP steht für Web Model Context Protocol. Wer Anthropics MCP kennt, erkennt das Muster: ein Standard, der Software erlaubt, strukturierte Fähigkeiten für KI-Agenten auffindbar und aufrufbar zu machen. Der Unterschied: WebMCP lebt im Browser. Websites registrieren Tools über navigator.modelContext.registerTool(), und KI-Agenten (browserintegrierte LLMs, agentische Extensions, Headless-Automatisierungsskripte) entdecken und rufen diese Tools auf, statt die Oberfläche abzuschaben.

Das ist keine Remote-API. WebMCP-Tools laufen im JavaScript-Kontext der Seite, innerhalb der bestehenden Browser-Sitzung des Nutzers. Sie erben die Authentifizierung, Berechtigungen und Session-Daten des Nutzers. Eine Reisebuchungsseite kann ein searchFlights-Tool bereitstellen, das dieselben Backend-Aufrufe nutzt wie das menschliche Suchformular, mit demselben eingeloggten Konto, denselben Bonusmeilen, denselben gespeicherten Zahlungsmethoden.

Was WebMCP ersetzt

Browser-KI-Agenten nutzen heute einen von zwei Ansätzen, und beide sind fragil. Visionsbasierte Agenten (wie OpenAIs Operator) machen Screenshots und schließen aus Pixelpositionen. DOM-basierte Agenten (wie browser-use oder Stagehand) parsen die Seitenstruktur und simulieren Klicks. Beide brechen, wenn eine Website ihr Layout ändert. Beide sind langsam, weil jede Aktion einen Reasoning-Schritt erfordert. Und beide schlagen fehl, wenn interaktive Elemente mehrdeutig sind.

WebMCP eliminiert das Raten. Die Website teilt dem Agenten explizit mit, was er tun kann, mit typisierten Parametern und strukturierten Rückgabewerten. Das ist ein fundamental anderer Vertrag: kooperativ statt adversarial.

Die zwei APIs: Deklarativ und Imperativ

Die Spezifikation definiert zwei Ansätze, um Tools bereitzustellen, je nach Komplexitätsstufe.

Imperative API: Volle JavaScript-Kontrolle

Die imperative API ist die Hauptschnittstelle für komplexe Interaktionen. Man registriert Tools mit einem Namen, einer natürlichsprachlichen Beschreibung, einem JSON Schema für Eingaben und einer asynchronen Handler-Funktion:

navigator.modelContext.registerTool({
  name: 'suche_fluege',
  description: 'Verfügbare Flüge zwischen zwei Flughäfen an einem Datum suchen',
  inputSchema: {
    type: 'object',
    properties: {
      abflug: { type: 'string', description: 'IATA-Flughafencode (z.B. FRA)' },
      ziel: { type: 'string', description: 'IATA-Flughafencode (z.B. JFK)' },
      datum: { type: 'string', format: 'date' },
      passagiere: { type: 'number', default: 1 }
    },
    required: ['abflug', 'ziel', 'datum']
  },
  handler: async ({ abflug, ziel, datum, passagiere }) => {
    const ergebnisse = await flugAPI.suche({ abflug, ziel, datum, passagiere });
    return { fluege: ergebnisse, anzahl: ergebnisse.length };
  }
});

JSON Schema wurde bewusst gewählt, weil es bereits der Standard für LLM-Tool-Calling ist. Claude, GPT und Gemini verwenden alle JSON Schema zur Definition von Funktionsparametern. WebMCP nutzt dasselbe Format, sodass Modellanbieter keine separate Parsing-Logik für Web-Tools bauen müssen.

Deklarative API: HTML-Formulare als Tools

Die deklarative API verfolgt einen anderen Ansatz. Standard-HTML-<form>-Elemente werden ohne zusätzliches JavaScript agenten-aufrufbar. Die Spezifikation erkundet das Hinzufügen von Attributen zu Formularen, die diese als Tools markieren. Der Handler kann über SubmitEvent.agentInvoked prüfen, ob die Übermittlung von einem Agenten oder einem Menschen stammt.

Das ist der Weg mit weniger Aufwand. Ein Online-Shop mit einem Standard-Suchformular kann es mit wenigen Attributen für Agenten zugänglich machen, ganz ohne JavaScript-Refactoring. Die imperative API übernimmt alles andere: dynamische Interaktionen, mehrstufige Workflows und Aktionen, die Geschäftslogik jenseits einfacher Formularübermittlungen erfordern.

Sicherheitsmodell: Vertrauensgrenzen und offene Fragen

Das Sicherheitsmodell von WebMCP adressiert zwei Vertrauensgrenzen: Tool-Registrierung (was wird exponiert) und Tool-Aufruf (was Agenten damit tun können).

Berechtigungs-Prompts pro Agent

Der Browser fragt die Nutzereinwilligung für spezifische Paare aus Web-App und Agent ab. Wenn Claude auf einer Gmail-Seite läuft, fragt der Browser, ob Gmails Tools von Claude aufgerufen werden dürfen, nicht pauschal von allen Agenten. Diese Granularität ist wichtig, weil verschiedene Agenten unterschiedliche Risikoprofile haben.

Was noch nicht gelöst ist

Die Spezifikation ist ehrlich über ihre Lücken. Tools können eine destructiveHint-Annotation tragen, aber die ist empfehlend, nicht erzwingend. Das Risiko der „letalen Trias" bleibt bestehen: Ein Agent, der private Daten lesen, nicht vertrauenswürdige Inhalte parsen und extern kommunizieren kann, könnte über Prompt Injection zur Datenexfiltration missbraucht werden. Die Spec beinhaltet requestUserInteraction() für Human-in-the-Loop-Bestätigung bei sensiblen Operationen, aber Prompt Injection ist als unvollständig gelöst anerkannt.

WebMCP erfordert außerdem HTTPS in Produktion (localhost ist bei der Entwicklung erlaubt), und die Empfehlung lautet, weniger als 50 Tools pro Seite zu registrieren, um die Agenten-Discovery nicht zu überlasten.

Weiterlesen: MCP und A2A: Protokolle für KI-Agent-Kommunikation

Was sich für Browser-Agent-Entwickler ändert

Wer Browser-Automatisierungstools oder agentische Anwendungen baut, erlebt mit WebMCP einen Wandel der Kostenstruktur: von per-Aktion-Reasoning hin zu einmaliger Tool-Discovery.

Vor WebMCP

Jede Web-Interaktion erforderte eine vollständige Reasoning-Schleife. Der Agent beobachtete die Seite (DOM-Snapshot oder Screenshot), entschied, welches Element er ansteuert, führte die Aktion aus und überprüfte das Ergebnis. Jeder Schritt verbrauchte LLM-Tokens und erzeugte Latenz. Ein fünfstufiger Checkout bedeutete fünf Reasoning-Zyklen. Und wenn eine Seite ihre Button-Anordnung änderte, brach der Agent.

Nach WebMCP

Der Agent entdeckt verfügbare Tools einmal und ruft sie dann direkt auf. Ein fünfstufiger Checkout wird zu fünf Funktionsaufrufen mit typisierten Parametern. Keine Screenshots, kein DOM-Parsing, kein Pixel-Reasoning. Die 67% Reduktion beim Rechenaufwand kommt durch den Wegfall der Wahrnehmungs- und Reasoning-Schichten, für die Browser-Agenten derzeit Tokens verbrennen.

Für Teams, die Browser-Agenten im großen Maßstab betreiben, bedeutet das direkt geringere LLM-Kosten pro Aufgabe. Für Endnutzer heißt es schnellere und zuverlässigere Web-Automatisierung.

Die Fragmentierungsfrage

WebMCP gibt es aktuell nur in Chrome. Microsoft hat die Spec mitgeschrieben, was Edge-Unterstützung wahrscheinlich macht, aber Firefox und Safari haben keine Implementierungs-Timelines angekündigt. Mozilla, Apple und andere Browseranbieter sind in der W3C-Arbeitsgruppe vertreten, haben aber keine fertigen Implementierungen.

Dieses Fragmentierungsrisiko ist real. Browser-Agenten werden für absehbare Zeit sowohl WebMCP (auf Chrome/Edge) als auch traditionelle DOM-/Visions-Ansätze (überall sonst) unterstützen müssen. WebMCP ist additiv, kein Ersatz, zumindest bis andere Browser nachziehen.

Für deutsche und europäische Unternehmen kommt ein weiterer Aspekt hinzu: WebMCP-Tools laufen im Browser-Kontext des Nutzers und erben dessen Session-Daten. Das hat DSGVO-Implikationen. Wenn ein KI-Agent über WebMCP auf eine Website zugreift, die personenbezogene Daten verarbeitet, muss klar sein, auf welcher Rechtsgrundlage der Agent handelt und ob die Verarbeitung vom ursprünglichen Zweck gedeckt ist. Unternehmen im DACH-Raum sollten ihre Datenschutzbeauftragten frühzeitig einbinden.

Weiterlesen: MCP unter Beschuss: CVEs, Tool Poisoning und wie Sie Ihre KI-Agent-Integrationen absichern

Warum WebMCP über Browser-Automatisierung hinausgeht

WebMCP ist der erste Standard, der das Web selbst zu einer agenten-zugänglichen Schnittstellenschicht macht. MCP verbindet Agenten mit Backend-Tools. A2A verbindet Agenten mit anderen Agenten. WebMCP verbindet Agenten mit den 1,9 Milliarden Websites, die aktuell nur HTML und JavaScript sprechen.

Drei Anwendungsfälle im Chrome-Entwicklerblog zeigen, wohin das führt:

Kundensupport: Ein Agent füllt automatisch technische Details in ein Support-Ticket-Formular aus, indem er ein registriertes submitTicket-Tool aufruft, statt mühsam in Felder zu tippen und auf Absenden zu klicken.

E-Commerce: Ein Agent findet Produkte, konfiguriert Optionen und navigiert durch den Checkout per strukturierter Tool-Aufrufe. Ein mehrseitiger Flow wird zu einer Sequenz von Funktionsaufrufen.

Reisen: Ein Agent sucht Flüge, wendet Filter an und bucht Tickets über deklarierte Tools, mit denselben Backend-APIs wie die menschliche Oberfläche, aber ohne Rendering-Overhead.

Das große Bild: So wie MCP Agenten einen standardisierten Zugang zu Tools hinter APIs gab, gibt WebMCP Agenten einen standardisierten Zugang zu den Tools, die in Web-Oberflächen eingebettet sind. Für die Millionen von Websites und Web-Apps, die nie eine eigene API bauen werden, ist WebMCP die Abkürzung.

Zeitplan und nächste Schritte

WebMCP ist experimentell. Die navigator.modelContext-Schnittstelle kann sich zwischen Chrome-Versionen ändern, und der W3C-Entwurf befindet sich explizit in der Phase „wird sich wahrscheinlich weiterentwickeln". Die Spezifikation empfiehlt ausschließlich Prototyping, keinen Produktiveinsatz für sensible Workflows.

Der realistische Zeitplan:

  • Jetzt: Chrome 146 Canary mit dem „WebMCP for testing"-Flag
  • März 2026: Chrome 146 Stable erwartet, wobei WebMCP möglicherweise hinter dem Flag bleibt
  • Mitte 2026: Google I/O und Google Cloud Next als wahrscheinliche Plattformen für breitere Ankündigungen
  • Ende 2026+: Browserübergreifende Adoption hängt von Firefox und Safari ab

Wer Websites betreibt: Fangen Sie an, auf Staging-Umgebungen mit navigator.modelContext.registerTool() zu experimentieren. Identifizieren Sie, welche Nutzer-Flows sich als Tools bereitstellen lassen. Der Aufwand ist gering (einige JavaScript-Funktionen pro Flow), der Gewinn ist, dass Ihre Seite für die Welle der Browser-Agenten bereit ist.

Wer Browser-Agenten baut: Integrieren Sie WebMCP-Tool-Discovery als optionalen Schnellpfad in Ihren Agenten-Loop. Wenn navigator.modelContext verfügbar ist, nutzen Sie es. Wenn nicht, greifen Sie auf DOM-/Visions-Ansätze zurück. Diese Hybridstrategie bleibt nötig, bis die browserübergreifende Adoption reift.

Häufig gestellte Fragen

Was ist Chrome WebMCP?

WebMCP (Web Model Context Protocol) ist ein W3C-Entwurfsstandard, gemeinsam von Google und Microsoft entwickelt, der Websites erlaubt, strukturierte, aufrufbare Tools für KI-Agenten über die Browser-API navigator.modelContext bereitzustellen. Statt DOM-Scraping oder Screenshot-Interpretation rufen Agenten registrierte Funktionen mit typisierten Parametern auf. Die Early Preview ist in Chrome 146 Canary hinter einem Feature-Flag verfügbar.

Wie unterscheidet sich WebMCP von normalem MCP?

Normales MCP verbindet KI-Agenten mit Backend-Tools und Datenquellen über serverseitige Integrationen. WebMCP bringt dasselbe Muster in den Browser: Websites registrieren Tools in JavaScript, die im Seitenkontext ausgeführt werden und die Authentifizierung, Berechtigungen und Session-Daten des Nutzers erben. MCP arbeitet Server-zu-Server; WebMCP arbeitet Browser-zu-Agent.

Welche Browser unterstützen WebMCP?

Stand Februar 2026 unterstützt nur Chrome 146 Canary WebMCP hinter dem Feature-Flag „WebMCP for testing". Microsoft hat die Spezifikation mitgeschrieben, was Edge-Unterstützung wahrscheinlich macht. Firefox, Safari und andere Browser sind in der W3C-Arbeitsgruppe vertreten, haben aber keine Implementierungs-Zeitpläne angekündigt.

Ist WebMCP produktionsreif?

Nein. WebMCP hat explizit experimentellen Status. Die Spezifikation empfiehlt ausschließlich Prototyping, keinen Produktiveinsatz für sensible Daten-Workflows. Die navigator.modelContext-API, Methodennamen und Parameterschemas können sich zwischen Chrome-Versionen ändern. Chrome 146 Stable wird für März 2026 erwartet, aber WebMCP könnte hinter dem Feature-Flag bleiben.

Was bedeutet WebMCP für den Datenschutz nach DSGVO?

WebMCP-Tools laufen im Browser-Kontext des Nutzers und erben dessen Session-Daten. Wenn ein KI-Agent über WebMCP auf eine Website zugreift, die personenbezogene Daten verarbeitet, muss die Rechtsgrundlage für die Verarbeitung durch den Agenten geklärt sein. Unternehmen im DACH-Raum sollten ihre Datenschutzbeauftragten einbinden und prüfen, ob die Agenten-Nutzung vom ursprünglichen Verarbeitungszweck gedeckt ist.