Computer Use (ブラウザ自動操作)

English	日本語	説明
Computer Use	コンピュータ操作	Claude が画面を見て・マウス/キーボードを操作する API
Screenshot	スクリーンショット	現在画面を画像として取得する操作
Action	アクション	click / type / scroll などの操作プリミティブ
Sandboxing	サンドボックス化	操作対象を隔離環境に閉じ込めて安全性を確保
RPA	ロボティック・プロセス・オートメーション	GUI を介した業務自動化技術 (UiPath / Selenium 等)

Computer Use とは

Computer Use は Claude が コンピュータ画面を視認し、マウス・キーボードを操作する 機能です。スクリーンショット → アクションの循環でブラウザや GUI アプリを操作します。

動作モデル

1. Claude が現在の画面を screenshot で取得
2. 何をすべきか考える (click / type / scroll ...)
3. アクションを発行
4. 結果のスクリーンショットを見て次の判断
5. 目的達成までループ

→ 人が「画面を見て、考えて、操作する」のと同じプロセスを Claude が再現。

主なアクション

screenshot - 現在画面を取得
left_click(x, y) / right_click / double_click
type(text) - テキスト入力
key(key_combination) - Enter / Tab / Cmd+S 等
scroll(direction, amount)
mouse_move(x, y)
wait(seconds) - ページ読み込み待ちなど

API での使い方 (概略)

from anthropic import Anthropic

client = Anthropic()
res = client.beta.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=2048,
    tools=[{
        "type": "computer_20240722",
        "display_width_px": 1280,
        "display_height_px": 800,
    }],
    messages=[{"role": "user", "content": "OpenStreetMap で東京駅の場所をスクショして"}],
    betas=["computer-use-2024-10-22"],
)

実際の操作は 自分が用意したサンドボックス VM に対して行います。Anthropic はモデルを提供するだけで、操作対象 VM の構築・実装は利用側の責任。

クラウド版 Claude Code と Computer Use の関係

クラウド版 Claude Code = Computer Use + 長時間実行 + ファイル/コード環境 + パッケージ化

つまりクラウド版 Claude Code は内部で Computer Use を使ってブラウザを操作しています。 「自分で Computer Use を実装するのはクラウド版 Claude Code を自前で作るに近い」 ので、特殊な要件 (社内 VPN・特定 GUI アプリ) でない限りクラウド版 Claude Code を使う方が現実的。

クラウド版 Claude Code で十分な場合 vs Computer Use を直接使う場合

シーン	推奨
公開 Web のスクレイピング	クラウド版 Claude Code (組み込み済み)
認証必要な SaaS 操作	クラウド版 Claude Code + Connector
社内 GUI アプリの操作	Computer Use 直接 (自前 VM)
RPA 置き換え (社内 ERP / CRM)	Computer Use 直接
End-to-End テスト自動化	Computer Use 直接 (CI 統合)
アクセシビリティテスト	Computer Use 直接

RPA (UiPath/Selenium) からの移行

Computer Use は 次世代の RPA とも言える領域。従来の RPA との比較:

	従来の RPA (UiPath)	Selenium	Computer Use
操作対象	GUI / Web	Web のみ	GUI / Web 両方
学習方法	録画 → 編集	コード	自然言語で指示
UI 変更耐性	弱い (要素 ID 依存)	弱い (要素 ID 依存)	強い (画像理解)
保守性	中	中	高 (画面が変わっても適応)
速度	速い	速い	遅い (画像 + 思考のレイテンシ)
構築コスト	高 (専門ツール)	中	低〜中
ライセンス	高額	無料	API 課金

→ 「UI が時々変わる」「複雑なロジック判定」 が必要なケースは Computer Use の独壇場。 → 「同じ画面を高速大量処理」 は従来 RPA の方が速い。

移行判断のポイント

✅ 移行向き: UI が頻繁に変わる、判断が必要、開発コストを下げたい
❌ 既存 RPA 維持: 1 日数千件処理、ms 単位の応答性、UI が固定

Use Case (実例)

UC: 古い社内 CRM のデータ抽出 (毎週 4 時間 → 30 分に)

従来: 担当者が CRM にログイン → 各案件の情報をコピー → スプレッドシートに転記 (毎週 4 時間)

Computer Use 化:

1. Docker サンドボックスを起動 (Linux + Firefox)
2. CRM に SSO ログイン (環境変数で認証情報)
3. Claude に依頼: "案件一覧から status が active なものを 30 件取得し、CSV に保存"
4. Claude が画面を見ながら一覧をスクロール、各案件をクリック、データを集める
5. CSV で出力 → Drive に保存

所要時間: 30 分 / 週、構築コスト 1 日

UC: Web アプリ E2E テスト

Claude に依頼: "ログイン → 商品検索 → カート追加 → 決済 までを自動テストして、
                各ステップでスクショを撮り、想定挙動と違ったら指摘して"

→ Selenium 等の従来ツールよりも シナリオを自然言語で書ける のが強み。 UI が変わってもテストコードを書き換えなくて済む。

UC: 古い VBA Excel マクロ業務の置き換え

Claude に依頼: "Excel ファイル X を開いて、シート 'sales' から
                値が 1000 以上の行だけを 'top-sales' シートにコピーして保存"

→ Excel ネイティブ操作 (Computer Use で LibreOffice 経由でも可)。

サンドボックス構築 (リファレンス実装)

Anthropic 公式は Docker ベースのリファレンス実装を公開しています:

docker run -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
  -v $HOME/.anthropic:/home/computeruse/.anthropic \
  -p 5900:5900 -p 8501:8501 -p 6080:6080 -p 8080:8080 \
  -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

→ Linux + Firefox + Streamlit UI が立ち上がる。Web UI から自然言語で指示できる。

サンドボックス設計の要件

隔離: 操作対象を本番環境から分離 (Docker / VM / 専用マシン)
ネットワーク: outbound を必要最小限にホワイトリスト
認証: 操作対象サービスの認証情報を環境変数で安全に渡す
ログ: 画像 + アクション履歴を全保存 (監査・デバッグ用)
タイムアウト: 1 タスクあたり最大時間を設定
人間承認: 重要操作 (送信・削除等) は人間に確認を求める設計

セキュリティと倫理のチェックリスト

技術面

[ ] サンドボックス VM で隔離
[ ] 機密情報・本番データへのアクセス禁止
[ ] outbound ネットワークをホワイトリスト
[ ] 画像 + アクション履歴をログ保存
[ ] 人間承認を組み込み (重要操作前)
[ ] 緊急停止機構 (kill switch)

倫理・規約面

❌ CAPTCHA 突破は禁止 (規約違反、倫理的にも NG)
❌ 他人のアカウントへの不正操作 (法的リスク)
❌ スクレイピングで robots.txt を無視
❌ レート制限を踏み越える大量アクセス
✅ 対象サービスの利用規約を遵守

苦手・注意点

課題	対策
遅い (1 操作に画像 + 思考)	バッチ処理を許容、急ぎは従来 RPA
誤クリック	重要操作前に人間承認
CAPTCHA で詰まる	想定して避ける UI 経路を設計
モバイル UI で苦戦	デスクトップ UI を優先
複雑な状態 (タブ多数)	タスクをシンプルなシナリオに分割
レート制限	適切な wait を入れる

▶ Computer Use シナリオ設計

私の会社では古い社内 CRM (Web GUI) のデータ抽出に毎週 4 時間かけています。Claude の Computer Use を使う前提で、この自動化のステップ・サンドボックス構成・必要なガードレール・期待効果と各リスクへの対策を設計してください。