RL RanceLee Tutorials
← Volver a tutoriales

Deja que Codex y Claude controlen tu computadora

En capítulos anteriores, cubrimos varias funciones nuevas de Anthropic. Mientras tanto, OpenAI, aunque aún no ha lanzado un nuevo modelo (largamente anunciado), también ha estado activo. Una actualización notable es que Codex ahora admite controlar tu computadora, y lo hace de una manera diferente.

Probé las funciones de uso de computadora tanto de Codex como de Claude Code. Le pedí a la IA que enviara un mensaje de WeChat por mí. Codex lo logró, mientras que Claude no solo falló, sino que también me cerró la sesión de mi cuenta de WeChat.

Primero describiré la configuración y el proceso de prueba de ambos, y luego explicaré por qué existe tal diferencia.

Configuración y experiencia de uso de Codex

Usé la aplicación de escritorio de Codex. La entrada está en su “Configuración”. Primero, haz clic en “Computer Use” en el menú izquierdo, luego marca el plugin Computer Use a la derecha.

Luego vuelve a la interfaz de chat y dale una tarea a Codex, como “Abre Obsidian, crea un nuevo archivo y establece el título como ‘Esto fue hecho por el control automático de la aplicación Codex’.”

Después de presionar Enter, Codex primero mostrará una solicitud de permiso preguntando si deseas permitirle controlar Obsidian. Haz clic en “Permitir”. Si el software es de bajo riesgo, también puedes marcar “Permitir siempre” a la izquierda.

Si estás habilitando Computer Use por primera vez, aparecerá un cuadro de diálogo de autorización a nivel del sistema de Mac, solicitando permisos de Accesibilidad y Capturas de pantalla. Haz clic en Permitir para ambos.

Después de hacer clic en “Permitir”, la página se redirigirá. Si “Codex Computer Use” no está en Configuración del Sistema, arrastra el icono desde el banner debajo de la ventana emergente a la lista de arriba. Si ya está allí, solo actívalo. Recuerda Permitir ambos.

Una vez configurados los permisos, Codex abrirá Obsidian, creará un nuevo archivo y escribirá el título. Termina rápidamente y el título es exactamente el solicitado.

A continuación, subamos el nivel: pídele a Codex que opere WeChat y envíe un mensaje a un contacto.

Después de comenzar, puedes ver un pequeño cursor de ratón azul con una sombra moviéndose lentamente en la pantalla: ese es Codex en acción. Este detalle será útil más adelante, así que tenlo en cuenta.

Después de redactar el mensaje, se detiene para que yo confirme. Respondo “Enviar”, presiono Enter y el mensaje sale.

Todo el proceso no tuvo errores. WeChat funcionó normalmente durante la operación de Codex y la cuenta no se cerró.

Configuración y experiencia de uso de Claude

Para Claude, usé la versión de terminal de Claude Code. En la terminal, escribe /mcp y habilita la opción integrada de computer-use.

Pídele a Claude que haga lo mismo. Primero, prueba Obsidian para escribir un archivo: esta prueba pasó, igual que Codex, así que no incluiré una captura de pantalla.

Luego prueba WeChat.

Segundos después de enviar la tarea, surgieron problemas. Claude no pudo operar WeChat; varios clics no funcionaron, y WeChat lo detectó, ¡cerrando mi sesión!

No fue solo una falla de la tarea. WeChat detectó una operación anormal, activó el control de riesgos y me obligó a iniciar sesión de nuevo.

Por qué Codex funciona y Claude no

Inicialmente pensé que el uso de computadora de Claude era inestable. Luego miré hacia atrás en la captura de pantalla de Codex: ¿recuerdas ese pequeño cursor de ratón azul con una sombra? La respuesta está justo ahí.

Los mecanismos de implementación son diferentes.

Cuando Codex opera, en realidad mueve el cursor del ratón a la posición objetivo y luego hace clic. Puedes ver la trayectoria del movimiento del cursor en la pantalla: se mueve, se detiene, luego hace clic, que es esencialmente la misma secuencia de eventos que un humano usando un ratón.

Claude adopta un enfoque diferente. Sintetiza directamente un evento de “clic en coordenadas” y lo envía a la ventana objetivo. El cursor no se mueve en absoluto; hace clic instantáneamente. Este método es rápido y no requiere esperar a que el cursor se mueva, pero tiene una firma muy distintiva para las aplicaciones: un “clic de ratón” sin trayectoria de movimiento que teletransporta a coordenadas, algo que una mano humana no puede producir.

Codex: Simula el movimiento real del ratón, por lo que las aplicaciones no pueden saber que es IA. Claude: Sintetiza directamente eventos de clic, que las aplicaciones con anti-trampas como WeChat pueden detectar fácilmente.

Las aplicaciones de escritorio normales no se preocupan por ninguno de los dos métodos, por lo que Claude funciona bien con Obsidian. Pero aplicaciones como WeChat, que tienen sistemas de seguridad de cuentas, escanean activamente en busca de características de automatización. Una vez detectadas, activan el control de riesgos, que es lo que mostró mi captura de pantalla “Por la seguridad de tu cuenta, vuelve a iniciar sesión”.

La implementación actual de computer-use de Anthropic sigue la ruta de eventos sintéticos. La ventaja es la velocidad; la desventaja es que no puede engañar a las aplicaciones que detectan activamente la automatización.

Recomendaciones de uso

Desglosémoslo por caso de uso:

Usa Codex para: Operar software con detección anti-automatización incorporada, como WeChat, QQ, banca en línea, mensajería empresarial y juegos. El enfoque de ratón real de Codex es la única opción aquí.

Usa Claude para: Operar aplicaciones de escritorio normales: Obsidian, Bloc de notas, Finder, software de diseño, etc. Estas aplicaciones no se preocupan si estás usando un ratón real, y Claude es más rápido ya que no necesita esperar el movimiento del cursor, lo que lo hace más eficiente.

Ya lo probé por ti. El resultado es que tu cuenta se cierra a la fuerza, requiriendo un nuevo escaneo para iniciar sesión. El costo es pequeño pero molesto.

En general, mi sensación personal es que la función de control de computadora es un poco para presumir. Todavía no he encontrado una razón real para usarla. Sin embargo, es prometedora para el futuro.

Así que este capítulo es solo una breve introducción a la función.


Parte 4: Técnicas avanzadas: Skill / MCP / Hook + Mindset