Laissez Codex et Claude contrôler votre ordinateur

Dans les chapitres précédents, nous avons abordé plusieurs nouvelles fonctionnalités d’Anthropic. Pendant ce temps, OpenAI, bien qu’il n’ait pas encore publié de nouveau modèle (longtemps teasé), a également été actif. Une mise à jour notable est que Codex prend désormais en charge le contrôle de votre ordinateur, et ce d’une manière différente.

J’ai essayé les fonctionnalités de contrôle d’ordinateur de Codex et de Claude Code. J’ai demandé à l’IA d’envoyer un message WeChat pour moi. Codex a réussi, tandis que Claude a non seulement échoué mais m’a également déconnecté de mon compte WeChat.

Je vais d’abord décrire le processus d’installation et de test pour les deux, puis expliquer pourquoi il y a une telle différence.

Configuration et expérience d’utilisation de Codex

J’ai utilisé l’application de bureau Codex. L’entrée se trouve dans ses « Paramètres ». D’abord, cliquez sur « Computer Use » dans le menu de gauche, puis cochez le plugin Computer Use à droite.

Ensuite, revenez à l’interface de chat et donnez une tâche à Codex, comme « Ouvrez Obsidian, créez un nouveau fichier et définissez le titre sur ‘Ceci a été fait par le contrôle automatique de l’application Codex’ ».

Après avoir appuyé sur Entrée, Codex affichera d’abord une demande d’autorisation vous demandant si vous voulez lui permettre de contrôler Obsidian. Cliquez sur « Autoriser ». Si le logiciel est à faible risque, vous pouvez également cocher « Toujours autoriser » à gauche.

Si vous activez Computer Use pour la première fois, une boîte de dialogue d’autorisation au niveau du système Mac apparaîtra, demandant les autorisations d’accessibilité et de capture d’écran. Cliquez sur Autoriser pour les deux.

Après avoir cliqué sur « Autoriser », la page sera redirigée. Si « Codex Computer Use » n’est pas dans les Paramètres système, faites glisser l’icône de la bannière sous la fenêtre contextuelle vers la liste ci-dessus. Si elle y est déjà, activez-la simplement. N’oubliez pas d’autoriser les deux.

Une fois les autorisations définies, Codex ouvrira Obsidian, créera un nouveau fichier et écrira le titre. Cela se termine rapidement, et le titre est exactement comme demandé.

Ensuite, passons à la vitesse supérieure : demandez à Codex d’opérer WeChat et d’envoyer un message à un contact.

Après le démarrage, vous pouvez voir un petit curseur de souris bleu avec une ombre se déplaçant lentement à l’écran — c’est Codex en action. Ce détail sera utile plus tard, alors gardez-le à l’esprit.

Après avoir composé le message, il fait une pause pour que je confirme. Je réponds « Envoyer », j’appuie sur Entrée, et le message part.

L’ensemble du processus s’est déroulé sans erreur. WeChat a fonctionné normalement pendant l’opération de Codex, et le compte n’a pas été déconnecté.

Configuration et expérience d’utilisation de Claude

Pour Claude, j’ai utilisé la version terminal de Claude Code. Dans le terminal, tapez /mcp et activez l’option computer-use intégrée.

Demandez à Claude de faire la même chose. D’abord, essayez Obsidian pour écrire un fichier — ce test a réussi, tout comme Codex, donc je n’inclurai pas de capture d’écran.

Ensuite, essayez WeChat.

Quelques secondes après avoir envoyé la tâche, des problèmes sont survenus. Claude n’a pas réussi à opérer WeChat ; plusieurs clics n’ont pas fonctionné, et WeChat l’a détecté, me déconnectant !

Ce n’était pas seulement un échec de tâche. WeChat a détecté une opération anormale, a déclenché le contrôle des risques et m’a forcé à me reconnecter.

Pourquoi Codex fonctionne et Claude non

J’ai d’abord pensé que le computer-use de Claude était instable. Puis j’ai regardé la capture d’écran de Codex — vous vous souvenez de ce petit curseur de souris bleu avec une ombre ? La réponse est là.

Les mécanismes d’implémentation sont différents.

Lorsque Codex opère, il déplace réellement le curseur de la souris vers la position cible puis clique. Vous pouvez voir la trajectoire de déplacement du curseur à l’écran — se déplacer, faire une pause, puis cliquer — ce qui est essentiellement la même séquence d’événements qu’un humain utilisant une souris.

Claude adopte une approche différente. Il synthétise directement un événement « clic aux coordonnées » et l’envoie à la fenêtre cible. Le curseur ne bouge pas du tout ; il clique instantanément. Cette méthode est rapide et ne nécessite pas d’attendre que le curseur se déplace, mais elle a une signature très distincte pour les applications — un « clic de souris » sans trajectoire de mouvement qui se téléporte aux coordonnées, ce qu’une main humaine ne peut pas produire.

Codex : Simule un mouvement de souris réel, donc les applications ne peuvent pas dire que c’est une IA. Claude : Synthétise directement les événements de clic, ce que les applications avec anti-triche comme WeChat peuvent facilement détecter.

Les applications de bureau ordinaires ne se soucient pas de l’une ou l’autre méthode, donc Claude fonctionne bien avec Obsidian. Mais les applications comme WeChat, qui ont des systèmes de sécurité de compte, analysent activement les caractéristiques d’automatisation. Une fois détectées, elles déclenchent le contrôle des risques — c’est ce que montrait ma capture d’écran « Pour la sécurité de votre compte, veuillez vous reconnecter ».

L’implémentation actuelle du computer-use d’Anthropic suit la voie des événements synthétiques. L’avantage est la rapidité ; l’inconvénient est qu’elle ne peut pas tromper les applications qui détectent activement l’automatisation.

Recommandations d’utilisation

Détaillons par cas d’utilisation :

Utilisez Codex pour : Opérer des logiciels avec détection anti-automatisation intégrée, comme WeChat, QQ, les banques en ligne, les messageries d’entreprise et les jeux. L’approche de la souris réelle de Codex est le seul choix ici.

Utilisez Claude pour : Opérer des applications de bureau ordinaires — Obsidian, Notepad, Finder, logiciels de design, etc. Ces applications ne se soucient pas de savoir si vous utilisez une souris réelle, et Claude est plus rapide car il n’a pas besoin d’attendre le déplacement du curseur, ce qui le rend plus efficace.

Je l’ai essayé pour vous. Le résultat est que votre compte est déconnecté de force, nécessitant une nouvelle analyse pour se connecter. Le coût est faible mais ennuyeux.

Dans l’ensemble, mon sentiment personnel est que la fonction de contrôle d’ordinateur est un peu un effet de démonstration. Je n’ai pas encore trouvé de véritable raison de l’utiliser. C’est prometteur pour l’avenir, cependant.

Donc ce chapitre n’est qu’une brève introduction à la fonctionnalité.