RL RanceLee Tutorials
← Tutorialsへ戻る

CodexとClaudeにコンピュータを操作させる

前章では、Anthropicの新機能をいくつか紹介しました。一方、OpenAIもまだ新モデルをリリースしていませんが(長らく噂されています)、活発に動いています。注目すべきアップデートの一つは、Codexがコンピュータ操作をサポートするようになったことです。しかも、その方法が異なります。

私はCodexとClaude Codeの両方のコンピュータ操作機能を試しました。AIにWeChatでメッセージを送ってもらうよう依頼したところ、Codexは成功しましたが、Claudeは失敗しただけでなく、WeChatアカウントからログアウトさせられてしまいました。

まず、両方のセットアップとテストのプロセスを説明し、その後、なぜこのような違いが生じるのかを解説します。

Codexのセットアップと使用感

Codexデスクトップアプリを使用しました。設定画面の左メニューから「Computer Use」をクリックし、右側のComputer Useプラグインにチェックを入れます。

次にチャットインターフェースに戻り、Codexにタスクを与えます。例えば「Obsidianを開いて、新しいファイルを作成し、タイトルを『これはCodexアプリの自動制御で作成されました』に設定して」など。

Enterキーを押すと、Codexはまず権限リクエストをポップアップ表示し、Obsidianの操作を許可するかどうかを尋ねます。「許可」をクリックします。リスクの低いソフトウェアの場合は、左側の「常に許可」にチェックを入れることもできます。

初めてComputer Useを有効にする場合、Macのシステムレベルの認証ダイアログが表示され、アクセシビリティとスクリーンショットの権限が要求されます。両方とも許可をクリックします。

「許可」をクリックするとページがリダイレクトされます。「Codex Computer Use」がシステム設定にない場合は、ポップアップの下にあるバナーからアイコンを上のリストにドラッグします。すでにある場合は、スイッチをオンにするだけです。両方とも許可するのを忘れずに。

権限が設定されると、CodexはObsidianを開き、新しいファイルを作成し、タイトルを書き込みます。素早く完了し、タイトルは要求通りになります。

次に、難易度を上げてみましょう。CodexにWeChatを操作させ、連絡先にメッセージを送信するよう依頼します。

開始後、画面上に影付きの小さな青いマウスカーソルがゆっくりと動いているのが見えます。これがCodexの動作です。この詳細は後で役立つので、覚えておいてください。

メッセージを作成した後、確認のために一時停止します。私が「送信」と返信し、Enterキーを押すと、メッセージが送信されます。

プロセス全体でエラーは発生しませんでした。Codexの操作中もWeChatは正常に動作し、アカウントがログアウトされることもありませんでした。

Claudeのセットアップと使用感

Claudeについては、Claude Codeのターミナル版を使用しました。ターミナルで/mcpと入力し、組み込みのcomputer-useオプションを有効にします。

Claudeにも同じことを依頼します。まずObsidianでファイルを作成してみます。このテストはCodexと同様に合格したので、スクリーンショットは省略します。

次にWeChatを試します。

タスクを送信して数秒後、問題が発生しました。ClaudeはWeChatを操作できず、何度クリックしても反応がなく、WeChatがそれを検出してログアウトさせられました!

単なるタスクの失敗ではありませんでした。WeChatが異常な操作を検出し、リスクコントロールを発動させ、再ログインを強制されました。

Codexが成功し、Claudeが失敗する理由

最初はClaudeのコンピュータ操作が不安定なのかと思いました。その後、Codexのスクリーンショットを振り返ってみました。あの影付きの小さな青いマウスカーソルを覚えていますか?答えはそこにあります。

実装メカニズムが異なるのです。

Codexが操作するとき、実際にマウスカーソルをターゲットの位置に移動させ、クリックします。画面上でカーソルの移動軌跡が見えます。移動し、停止し、クリックする。これは人間がマウスを使うのと本質的に同じイベントシーケンスです。

Claudeは別のアプローチを取ります。座標を指定した「クリック」イベントを直接合成し、ターゲットウィンドウに送信します。カーソルはまったく動かず、瞬時にクリックします。この方法は高速で、カーソルの移動を待つ必要がありませんが、アプリケーションにとっては非常に特徴的なシグネチャを持ちます。「マウスクリック」でありながら移動軌跡がなく、座標にワープする。これは人間の手では生成できません。

Codex: 実際のマウス動作をシミュレートするため、アプリケーションはAIと判断できない。 Claude: クリックイベントを直接合成するため、WeChatのようなアンチチート機能を持つアプリに容易に検出される。

通常のデスクトップアプリケーションはどちらの方法でも問題にしないため、ClaudeはObsidianでは正常に動作します。しかし、アカウントセキュリティシステムを持つWeChatのようなアプリは、自動化の特性を積極的にスキャンします。検出されるとリスクコントロールが発動します。これが、私のスクリーンショットに表示された「アカウントのセキュリティのため、再ログインしてください」というメッセージの理由です。

Anthropicの現在のコンピュータ操作実装は、合成イベントのルートを採用しています。利点は速度ですが、欠点は自動化を積極的に検出するアプリケーションを欺けないことです。

使用上の推奨事項

ユースケースごとに分類します。

Codexを使用するケース: 自動化検出機能が組み込まれたソフトウェアの操作。例:WeChat、QQ、オンラインバンキング、エンタープライズIM、ゲームなど。Codexの実際のマウスアプローチが唯一の選択肢です。

Claudeを使用するケース: 通常のデスクトップアプリケーションの操作。Obsidian、メモ帳、Finder、デザインソフトなど。これらのアプリは実際のマウスかどうかを気にせず、Claudeはカーソル移動を待つ必要がないため高速で、より効率的です。

私が試しました。結果はアカウントが強制ログアウトされ、再スキャンしてログインする必要があります。被害は小さいですが、面倒です。

全体的に、私の個人的な感想としては、コンピュータ制御機能はやや見せびらかし的な要素です。実際に使う理由をまだ見つけていません。将来性はありますが。

というわけで、この章では機能の簡単な紹介にとどめます。


パート4: 高度なテクニック: Skill / MCP / Hook + マインドセット