RL RanceLee Tutorials
← Zurück zu Tutorials

Lass Codex und Claude deinen Computer steuern

In den vorherigen Kapiteln haben wir mehrere neue Funktionen von Anthropic behandelt. In der Zwischenzeit war auch OpenAI aktiv, obwohl es noch kein neues Modell veröffentlicht hat (lange angekündigt). Eine bemerkenswerte Aktualisierung ist, dass Codex jetzt die Steuerung deines Computers unterstützt – und das auf eine andere Art und Weise.

Ich habe sowohl die Computer-Use-Funktionen von Codex als auch von Claude Code ausprobiert. Ich bat die KI, eine WeChat-Nachricht für mich zu senden. Codex hatte Erfolg, während Claude nicht nur scheiterte, sondern mich auch aus meinem WeChat-Konto ausloggte.

Ich werde zuerst den Einrichtungs- und Testprozess für beide beschreiben und dann erklären, warum es einen solchen Unterschied gibt.

Einrichtung und Nutzungserfahrung mit Codex

Ich habe die Codex-Desktop-App verwendet. Der Einstieg befindet sich in den ‘Einstellungen’. Klicke zuerst im linken Menü auf ‘Computer Use’ und aktiviere dann rechts das Computer-Use-Plugin.

Gehe dann zurück zur Chat-Oberfläche und gib Codex eine Aufgabe, wie ‘Öffne Obsidian, erstelle eine neue Datei und setze den Titel auf ‘This was done by Codex app auto-control’.’

Nach dem Drücken der Eingabetaste zeigt Codex zuerst eine Berechtigungsanfrage an, die fragt, ob du ihm erlauben möchtest, Obsidian zu steuern. Klicke auf ‘Allow’. Wenn die Software risikoarm ist, kannst du links auch ‘Always Allow’ aktivieren.

Wenn du Computer Use zum ersten Mal aktivierst, erscheint ein systemweites Autorisierungsdialogfeld von Mac, das Berechtigungen für Bedienungshilfen und Bildschirmaufnahmen anfordert. Klicke für beide auf ‘Allow’.

Nach dem Klicken auf ‘Allow’ wird die Seite weitergeleitet. Wenn ‘Codex Computer Use’ nicht in den Systemeinstellungen ist, ziehe das Symbol aus dem Banner unter dem Popup in die Liste oben. Wenn es bereits vorhanden ist, schalte es einfach ein. Denke daran, beide zu erlauben.

Sobald die Berechtigungen festgelegt sind, öffnet Codex Obsidian, erstellt eine neue Datei und schreibt den Titel. Es wird schnell fertig, und der Titel ist genau wie gewünscht.

Als Nächstes erhöhen wir den Schwierigkeitsgrad: Bitte Codex, WeChat zu bedienen und eine Nachricht an einen Kontakt zu senden.

Nach dem Start siehst du einen kleinen blauen Mauszeiger mit einem Schatten, der sich langsam über den Bildschirm bewegt – das ist Codex in Aktion. Dieses Detail wird später nützlich sein, also behalte es im Hinterkopf.

Nachdem die Nachricht verfasst wurde, hält es an, damit ich bestätigen kann. Ich antworte ‘Send’, drücke die Eingabetaste, und die Nachricht wird gesendet.

Der gesamte Prozess verlief fehlerfrei. WeChat funktionierte während des Betriebs von Codex normal, und das Konto wurde nicht ausgeloggt.

Einrichtung und Nutzungserfahrung mit Claude

Für Claude habe ich die Terminalversion von Claude Code verwendet. Gib im Terminal /mcp ein und aktiviere die integrierte Computer-Use-Option.

Bitte Claude, dasselbe zu tun. Versuche zuerst, mit Obsidian eine Datei zu schreiben – dieser Test bestand, genau wie bei Codex, daher füge ich keinen Screenshot ein.

Dann versuche es mit WeChat.

Sekunden nach dem Senden der Aufgabe traten Probleme auf. Claude konnte WeChat nicht bedienen; mehrere Klicks funktionierten nicht, und WeChat erkannte es und loggte mich aus!

Es war nicht nur ein Aufgabenfehler. WeChat erkannte einen abnormalen Betrieb, löste die Risikokontrolle aus und zwang mich, mich erneut anzumelden.

Warum Codex funktioniert und Claude nicht

Ich dachte zunächst, dass Claudes Computer-Use instabil sei. Dann sah ich mir den Codex-Screenshot noch einmal an – erinnerst du dich an den kleinen blauen Mauszeiger mit Schatten? Die Antwort liegt genau dort.

Die Implementierungsmechanismen sind unterschiedlich.

Wenn Codex arbeitet, bewegt es tatsächlich den Mauszeiger zur Zielposition und klickt dann. Du kannst die Bewegungsbahn des Cursors auf dem Bildschirm sehen – hinbewegen, pausieren, dann klicken – was im Wesentlichen die gleiche Ereignissequenz ist wie bei einem Menschen, der eine Maus benutzt.

Claude verfolgt einen anderen Ansatz. Es synthetisiert direkt ein ‘Klick-auf-Koordinaten’-Ereignis und sendet es an das Zielfenster. Der Cursor bewegt sich überhaupt nicht; es klickt sofort. Diese Methode ist schnell und erfordert kein Warten auf die Cursorbewegung, aber sie hat eine sehr deutliche Signatur für Anwendungen – ein ‘Mausklick’ ohne Bewegungsbahn, der zu Koordinaten teleportiert, was eine menschliche Hand nicht erzeugen kann.

Codex: Simuliert echte Mausbewegungen, sodass Anwendungen nicht erkennen können, dass es KI ist. Claude: Synthetisiert direkt Klickereignisse, die Apps mit Anti-Cheat wie WeChat leicht erkennen können.

Normale Desktop-Anwendungen stören sich nicht an beiden Methoden, daher funktioniert Claude problemlos mit Obsidian. Aber Apps wie WeChat, die Kontosicherheitssysteme haben, scannen aktiv nach Automatisierungsmerkmalen. Sobald sie erkannt werden, lösen sie die Risikokontrolle aus – genau das zeigte mein Screenshot ‘For your account security, please re-login’.

Die aktuelle Computer-Use-Implementierung von Anthropic folgt dem Weg der synthetischen Ereignisse. Der Vorteil ist die Geschwindigkeit; der Nachteil ist, dass sie Anwendungen, die aktiv Automatisierung erkennen, nicht täuschen kann.

Nutzungsempfehlungen

Lass es uns nach Anwendungsfall aufschlüsseln:

Verwende Codex für: Die Bedienung von Software mit integrierter Anti-Automatisierungserkennung, wie WeChat, QQ, Online-Banking, Unternehmens-IM und Spiele. Codex’ echter Mausansatz ist hier die einzige Wahl.

Verwende Claude für: Die Bedienung normaler Desktop-Anwendungen – Obsidian, Notepad, Finder, Designsoftware usw. Diese Apps kümmern sich nicht darum, ob du eine echte Maus verwendest, und Claude ist schneller, da es nicht auf die Cursorbewegung warten muss, was es effizienter macht.

Ich habe es für dich ausprobiert. Das Ergebnis ist, dass dein Konto zwangsweise ausgeloggt wird und du dich erneut per Scan anmelden musst. Der Aufwand ist gering, aber ärgerlich.

Insgesamt ist mein persönliches Gefühl, dass die Computersteuerungsfunktion ein wenig angeberisch ist. Ich habe noch keinen wirklichen Grund gefunden, sie zu nutzen. Für die Zukunft ist sie jedoch vielversprechend.

Dieses Kapitel ist also nur eine kurze Einführung in die Funktion.


Teil 4: Fortgeschrittene Techniken: Skill / MCP / Hook + Mindset