VisionClaw: Der Open-Source-KI-Agent, der durch deine Smart Glasses sieht

Foto von ThisIsEngineering auf Pexels Source

VisionClaw ist ein Open-Source-Projekt, das Meta Ray-Ban Smart Glasses in einen KI-Agenten mit Echtzeit-Wahrnehmung verwandelt. Es streamt, was du siehst und hörst, an Googles Gemini Live API. Gemini analysiert die Umgebung und kann über 56 Tool-Integrationen eigenständig handeln: Nachrichten versenden, im Web suchen, Smart-Home-Geräte steuern. Das Projekt erreichte innerhalb weniger Wochen nach dem Start im Februar 2026 1.800 GitHub-Stars und ist damit der erste populäre Open-Source-Versuch, KI-Agenten eine tragbare Schnittstelle zur physischen Welt zu geben.

Das Prinzip: Statt das Smartphone zu zücken und eine Frage einzutippen, sprichst du einfach. Die Brille erfasst, worauf du schaust, Gemini verarbeitet Bild und Ton zusammen, und wenn du eine Aktion auslöst (“Schick Sarah eine Nachricht, dass ich 10 Minuten später komme”), leitet OpenClaw sie an den passenden Dienst weiter. OpenClaw ist die Open-Source-Tool-Integrationsschicht, die Nvidia als das für agentische KI bezeichnete, was GPT für Chatbots war.

So funktioniert VisionClaw: Vier Schichten von der Linse zur Aktion

Die Architektur besteht aus vier klar getrennten Schichten, die jeweils einen Teil der Pipeline vom Sensor-Input bis zur ausgeführten Aktion abdecken.

Schicht 1: Hardware-Input

Die Meta Ray-Ban Glasses streamen Video mit circa 1 Bild pro Sekunde als JPEG über Metas Device Access Toolkit (DAT) SDK. Audio läuft bidirektional: Spracheingabe bei 16kHz PCM mono in 100ms-Blöcken, Geminis gesprochene Antworten kommen mit 24kHz über die eingebauten Lautsprecher der Brille. Die Brille muss den Entwicklermodus aktiviert haben. VisionClaw bietet alternativ einen iPhone-Kamera-Fallback zum Testen ohne Hardware.

Ein Bild pro Sekunde klingt langsam, und das ist es auch. Schnelle Bewegungen oder scrollenden Text erkennt das System nicht. Für die Zielszenarien von VisionClaw (Objekte identifizieren, Beschriftungen lesen, Umgebungen scannen) reicht 1fps aber aus.

Schicht 2: Das Gemini-Gehirn

Die Kernverbindung läuft über WebSocket zur Gemini Live API mit dem Modell gemini-2.5-flash-native-audio-preview. Der entscheidende Punkt: Gemini verarbeitet Audio nativ, ohne Umweg über Speech-to-Text. Das bedeutet geringere Latenz, besseres Verständnis von Betonung und Kontext, natürlichere Konversation. Ein rollierendes 20-Nachrichten-Kontextfenster hält das Gespräch über mehrere Austausche hinweg kohärent.

Schicht 3: OpenClaw als agentische Brücke

Wenn Gemini erkennt, dass du etwas erledigt haben willst (nicht nur eine Antwort), löst es einen execute-Funktionsaufruf aus. VisionClaws OpenClawBridge fängt diesen ab und leitet ihn per POST-Request an eine lokal laufende OpenClaw-Instanz weiter. OpenClaw unterstützt aktuell 56+ Tool-Integrationen: WhatsApp, Telegram, Signal, iMessage, E-Mail, Smart-Home-Steuerung, Websuche, Kalender, Einkaufslisten und mehr.

Hier hört VisionClaw auf, ein Sprachassistent zu sein, und wird zum Agenten. Ein Sprachassistent beantwortet Fragen. VisionClaw kann deinen Kalender prüfen, sehen, dass dein nächstes Meeting in 15 Minuten ist, über die Kamera feststellen, dass du noch im Café sitzt, und proaktiv deiner Kollegin schreiben, dass du dich verspätest.

Schicht 4: Live-Streaming via WebRTC

Ein unterschätztes Feature: WebRTC ermöglicht Echtzeit-POV-Sharing über 6-stellige Raumcodes. Eine entfernte Kollegin sieht exakt das, was du siehst, mit maximal 2,5 Mbps bei 24fps. Anwendungsfälle: Remote-Support, Vor-Ort-Inspektionen oder kollaboratives Troubleshooting, bei dem “Siehst du, was ich sehe?” eine wörtliche Antwort hat.

Was VisionClaw heute tatsächlich kann

Die Versprechen rund um Wearable-KI tendieren zum Visionären. Hier ist, was Stand März 2026 wirklich funktioniert.

Freihändige Kommunikation

“Schick Sarah eine Nachricht, dass ich in 10 Minuten da bin.” VisionClaw leitet das über OpenClaw an WhatsApp, Telegram oder iMessage weiter. Kein Smartphone zücken, kein Tippen, kein Stehenbleiben. Das ist der unmittelbar praktischste Anwendungsfall und derjenige, der am zuverlässigsten funktioniert.

Visuelle Produktsuche

Richte die Brille auf ein Produkt im Geschäft und frage “Was kostet das bei Amazon?” Gemini verarbeitet den visuellen Input, identifiziert das Produkt, OpenClaw führt die Suche durch. Die Ergebnisse kommen als gesprochene Antwort über die Brillenlautsprecher. Nutzerberichte auf Reddit zeigen: Bei Markenprodukten mit klaren Labels funktioniert das gut, bei generischen Artikeln weniger.

“Was ist das für ein Gebäude?” oder “Kannst du mir die Speisekarte vorlesen?” Gemini beschreibt, was die Kamera erfasst. Besonders nützlich für Barrierefreiheit. Sean Liu, VisionClaws Entwickler und Mixed-Reality-Forscher an der NYU im Intent Lab, hat auch GlassFlow gebaut: ein Begleitprojekt für Echtzeit-Transkription für Menschen mit Hörbehinderung.

Smart-Home-Sprachsteuerung

“Mach das Licht im Wohnzimmer aus” funktioniert über OpenClaws Smart-Home-Integrationen, während du dich durch die Wohnung bewegst. Der kontextuelle Vorteil gegenüber einem Smartphone-Assistenten: Du kannst auf das referenzieren, was du siehst. “Mach das Licht in diesem Raum an” wird sinnvoll, wenn das System weiß, in welchem Raum du bist.

Die Wearable-KI-Landschaft 2026

VisionClaw operiert nicht im luftleeren Raum. Der Markt für tragbare KI-Agenten ist Anfang 2026 vom Nischenthema zum hart umkämpften Feld geworden.

Open-Source-Konkurrenten:

Projekt	Hardware	Besonderheit
Clawglasses	Eigene Hardware (99-599 $)	Zweckgebaut, 12h Akku, 70.000+ verkauft
Brilliant Labs Halo	Eigene KI-Brille (349 $)	Datenschutz-first, On-Device-Verarbeitung, OLED
OpenGlass	DIY-Kit (~25 $)	ESP32-basiert, extrem günstig
Omi	Wearable-Pendant	Audio-fokussiert, Plugin-Ökosystem

Konzerne steigen ein:

Samsung kündigte KI-Smart-Glasses mit agentischen Features für 2026 an. Google bestätigte den Launch 2026 in Partnerschaft mit Samsung, Gentle Monster und Warby Parker. Apple arbeitet intensiv an Brillen, einem Pendant und Kamera-AirPods.

Was VisionClaw von diesen Corporate-Angeboten unterscheidet, ist dasselbe, was Linux von macOS unterscheidet: Es ist offen, kombinierbar und hackbar. Du wählst, welches LLM das Denken übernimmt, welche Tools du anbindest und welche Daten dein Gerät verlassen.

Für den DACH-Raum ist besonders relevant: Wer eine solche Brille im betrieblichen Umfeld einsetzen will, muss die DSGVO-Implikationen bedenken. Das Streaming von Video und Audio an US-Cloud-Dienste (Google Gemini) wirft Fragen zum Datentransfer auf, die seit dem EU-US Data Privacy Framework zwar entschärft, aber nicht vollständig gelöst sind.

Warum der Brillen-Formfaktor die Agenten-Gleichung verändert

Jeder bisherige KI-Agent operiert in einer digitalen Umgebung: Browser-Agenten sehen Webseiten, Coding-Agenten sehen Code, Workflow-Agenten sehen API-Antworten. VisionClaw ist strukturell anders. Es gibt Agenten Zugang zur physischen Welt in Echtzeit, über ein Gerät, das wie eine normale Sonnenbrille aussieht.

Drei Gründe, warum das zählt.

Kontext ohne Reibung. Smartphone rausholen, etwas fotografieren, App öffnen, Frage tippen: 15-30 Sekunden. Eine Frage aussprechen, während man auf den Gegenstand schaut: 2 Sekunden. Der kognitive Aufwand sinkt auf fast null, und das verändert, wie oft Menschen mit KI interagieren. Frühe VisionClaw-Nutzer berichten von 20-40 Interaktionen pro Tag, verglichen mit einer Handvoll Smartphone-basierter KI-Anfragen.

Permanente Wahrnehmung. Ein Smartphone-Agent weiß nur, was du ihm sagst. Ein Brillen-Agent sieht deine Umgebung kontinuierlich. Das ermöglicht proaktives Verhalten: einen Produktrückruf im Regal bemerken, darauf hinweisen, dass die Parkuhr gleich abläuft, oder einen Kollegen erkennen, der vor einem Meeting auf dich zukommt.

Freihändige Bedienung. Für Außendienstmitarbeiter, Chirurgen, Lagermitarbeiter oder jeden, dessen Hände beschäftigt sind, ist ein Brillen-Agent kein Luxus, sondern der einzige Formfaktor, der funktioniert. Der Smart-Glasses-Markt soll bis 2030 über 30 Milliarden Dollar erreichen, und Enterprise-Anwendungsfälle sind der Haupttreiber.

VisionClaw einrichten: Was du brauchst

Wenn du VisionClaw selbst ausprobieren willst, hier die Voraussetzungen:

Meta Ray-Ban Smart Glasses (Gen 2, ab ca. 299 $) mit aktiviertem Entwicklermodus. Oder teste ohne Brille über den iPhone-Kamera-Fallback.
Ein kostenloser Gemini-API-Key von Google AI Studio.
Xcode 15.0+ (iOS) oder Android Studio Ladybug+ (Android 14+ / API 34+).
OpenClaw lokal im selben WLAN (optional, für Tool-Integrationen über Konversation hinaus).

Die iOS-App ist ausgereifter als die Android-Version. Die Akkulaufzeit der Brille liegt bei 3-4 Stunden unter Dauerstreaming, was die größte praktische Einschränkung ist. Metas DAT SDK entwickelt sich noch, und Breaking Changes zwischen Versionen sind häufig.

Sicherheitshinweis: OpenClaw benötigt API-Keys, Passwörter und persönliche Daten für seine Integrationen. Drittanbieter-Skills kann jeder schreiben. Wer E-Mail, Messaging und Smart Home über OpenClaw verbindet, vertraut dieser Codebasis erheblichen Zugang an. Prüfe sorgfältig, was du anbindest.

Häufig gestellte Fragen

Was ist VisionClaw und wie funktioniert es?

VisionClaw ist ein Open-Source-KI-Agent, der Meta Ray-Ban Smart Glasses mit Googles Gemini Live API verbindet. Es streamt Video mit 1fps und bidirektionales Audio von der Brille an Gemini, das sehen kann, was du siehst, hören kann, was du sagst, und über 56+ Tool-Integrationen via OpenClaw handeln kann. Es läuft als iOS- oder Android-App.

Brauche ich eine Meta Ray-Ban Brille für VisionClaw?

Nein. VisionClaw bietet einen iPhone-Kamera-Fallback-Modus, mit dem du die KI-Agenten-Funktionalität ohne Meta Ray-Ban Brille testen kannst. Dir entgeht das freihändige Wearable-Erlebnis, aber die Sprach- und Sichtfunktionen arbeiten über die Handykamera.

Ist VisionClaw ein Jailbreak für Meta Ray-Ban Glasses?

Nein. VisionClaw nutzt Metas offizielles Device Access Toolkit (DAT) SDK, keinen Jailbreak oder Hack. Es erfordert die Aktivierung des Entwicklermodus, der Metas Standard-KI-Erlebnis zugunsten von Gemini und OpenClaw umgeht, aber offiziell unterstützte APIs verwendet.

Was kann VisionClaw in der Praxis tatsächlich?

Dokumentierte Anwendungsfälle umfassen freihändiges Messaging (WhatsApp, Telegram, iMessage), visuelle Produktsuche, Szenenbeschreibung, Smart-Home-Steuerung, Echtzeit-Sprachübersetzung, Kalenderverwaltung und Remote-Zusammenarbeit über WebRTC-POV-Sharing. Kommunikation und visuelle Suche sind derzeit die zuverlässigsten Funktionen.

Welche Alternativen zu VisionClaw gibt es für KI-Smart-Glasses?

Alternativen sind Clawglasses (zweckgebaute Hardware, 99-599 $, 70.000+ verkauft), Brilliant Labs Halo (349 $, Privacy-first mit On-Device-Verarbeitung), OpenGlass (DIY-Kit für 25 $) und Omi (audio-fokussiertes Wearable-Pendant). Samsung, Google und Apple bringen alle 2026 konkurrierende Smart Glasses mit KI-Features.

So funktioniert VisionClaw: Vier Schichten von der Linse zur Aktion#

Schicht 1: Hardware-Input#

Schicht 2: Das Gemini-Gehirn#

Schicht 3: OpenClaw als agentische Brücke#

Schicht 4: Live-Streaming via WebRTC#

Was VisionClaw heute tatsächlich kann#

Freihändige Kommunikation#

Visuelle Produktsuche#

Szenenverständnis und Navigation#

Smart-Home-Sprachsteuerung#

Die Wearable-KI-Landschaft 2026#

Warum der Brillen-Formfaktor die Agenten-Gleichung verändert#

VisionClaw einrichten: Was du brauchst#

Häufig gestellte Fragen#

Was ist VisionClaw und wie funktioniert es?#

Brauche ich eine Meta Ray-Ban Brille für VisionClaw?#

Ist VisionClaw ein Jailbreak für Meta Ray-Ban Glasses?#

Was kann VisionClaw in der Praxis tatsächlich?#

Welche Alternativen zu VisionClaw gibt es für KI-Smart-Glasses?#