Computer Use (ブラウザ自動操作)
重要キーワード (5 語)
Computer Use
(コンピュータ操作)
— Claude が画面を見て・マウス/キーボードを操作する API
Screenshot
(スクリーンショット)
— 現在画面を画像として取得する操作
Action
(アクション)
— click / type / scroll などの操作プリミティブ
Sandboxing
(サンドボックス化)
— 操作対象を隔離環境に閉じ込めて安全性を確保
RPA
(ロボティック・プロセス・オートメーション)
— GUI を介した業務自動化技術 (UiPath / Selenium 等)
Computer Use とは
Computer Use は Claude が コンピュータ画面を視認し、マウス・キーボードを操作する 機能です。 スクリーンショット → アクション の循環でブラウザや GUI アプリを操作します。
動作モデル
1. Claude が現在の画面を screenshot で取得
2. 何をすべきか考える (click / type / scroll ...)
3. アクションを発行
4. 結果のスクリーンショットを見て次の判断
5. 目的達成までループ
→ 人が「画面を見て、考えて、操作する」のと同じプロセスを Claude が再現。
主なアクション
screenshot- 現在画面を取得left_click(x, y)/right_click/double_clicktype(text)- テキスト入力key(key_combination)- Enter / Tab / Cmd+S 等scroll(direction, amount)mouse_move(x, y)wait(seconds)- ページ読み込み待ちなど
API での使い方 (概略)
from anthropic import Anthropic
client = Anthropic()
res = client.beta.messages.create(
model="claude-sonnet-4-6",
max_tokens=2048,
tools=[{
"type": "computer_20240722",
"display_width_px": 1280,
"display_height_px": 800,
}],
messages=[{"role": "user", "content": "OpenStreetMap で東京駅の場所をスクショして"}],
betas=["computer-use-2024-10-22"],
)
実際の操作は 自分が用意したサンドボックス VM に対して行います。Anthropic はモデルを提供するだけで、操作対象 VM の構築・実装は利用側の責任。
クラウド版 Claude Code と Computer Use の関係
クラウド版 Claude Code = Computer Use + 長時間実行 + ファイル/コード環境 + パッケージ化
つまり クラウド版 Claude Code は内部で Computer Use を使ってブラウザを操作しています。 「自分で Computer Use を実装するのは クラウド版 Claude Code を自前で作るに近い」 ので、特殊な要件 (社内 VPN・特定 GUI アプリ) でない限り クラウド版 Claude Code を使う方が現実的。
クラウド版 Claude Code で十分な場合 vs Computer Use を直接使う場合
| シーン | 推奨 |
|---|---|
| 公開 Web のスクレイピング | クラウド版 Claude Code (組み込み済み) |
| 認証必要な SaaS 操作 | クラウド版 Claude Code + Connector |
| 社内 GUI アプリの操作 | Computer Use 直接 (自前 VM) |
| RPA 置き換え (社内 ERP / CRM) | Computer Use 直接 |
| End-to-End テスト自動化 | Computer Use 直接 (CI 統合) |
| アクセシビリティテスト | Computer Use 直接 |
RPA (UiPath/Selenium) からの移行
Computer Use は 次世代の RPA とも言える領域。従来の RPA との比較:
| 従来の RPA (UiPath) | Selenium | Computer Use | |
|---|---|---|---|
| 操作対象 | GUI / Web | Web のみ | GUI / Web 両方 |
| 学習方法 | 録画 → 編集 | コード | 自然言語で指示 |
| UI 変更耐性 | 弱い (要素 ID 依存) | 弱い (要素 ID 依存) | 強い (画像理解) |
| 保守性 | 中 | 中 | 高 (画面が変わっても適応) |
| 速度 | 速い | 速い | 遅い (画像 + 思考のレイテンシ) |
| 構築コスト | 高 (専門ツール) | 中 | 低〜中 |
| ライセンス | 高額 | 無料 | API 課金 |
→ 「UI が時々変わる」「複雑なロジック判定」 が必要なケースは Computer Use の独壇場。 → 「同じ画面を高速大量処理」 は従来 RPA の方が速い。
移行判断のポイント
- ✅ 移行向き: UI が頻繁に変わる、判断が必要、開発コストを下げたい
- ❌ 既存 RPA 維持: 1 日数千件処理、ms 単位の応答性、UI が固定
Use Case (実例)
UC: 古い社内 CRM のデータ抽出 (毎週 4 時間 → 30 分に)
従来: 担当者が CRM にログイン → 各案件の情報をコピー → スプレッドシートに転記 (毎週 4 時間)
Computer Use 化:
1. Docker サンドボックスを起動 (Linux + Firefox)
2. CRM に SSO ログイン (環境変数で認証情報)
3. Claude に依頼: "案件一覧から status が active なものを 30 件取得し、CSV に保存"
4. Claude が画面を見ながら一覧をスクロール、各案件をクリック、データを集める
5. CSV で出力 → Drive に保存
所要時間: 30 分 / 週、構築コスト 1 日
UC: Web アプリ E2E テスト
Claude に依頼: "ログイン → 商品検索 → カート追加 → 決済 までを自動テストして、
各ステップでスクショを撮り、想定挙動と違ったら指摘して"
→ Selenium 等の従来ツールよりも シナリオを自然言語で書ける のが強み。 UI が変わってもテストコードを書き換えなくて済む。
UC: 古い VBA Excel マクロ業務の置き換え
Claude に依頼: "Excel ファイル X を開いて、シート 'sales' から
値が 1000 以上の行だけを 'top-sales' シートにコピーして保存"
→ Excel ネイティブ操作 (Computer Use で LibreOffice 経由でも可)。
サンドボックス構築 (リファレンス実装)
Anthropic 公式は Docker ベースのリファレンス実装を公開しています:
docker run -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
-v $HOME/.anthropic:/home/computeruse/.anthropic \
-p 5900:5900 -p 8501:8501 -p 6080:6080 -p 8080:8080 \
-it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
→ Linux + Firefox + Streamlit UI が立ち上がる。Web UI から自然言語で指示できる。
サンドボックス設計の要件
- 隔離: 操作対象を本番環境から分離 (Docker / VM / 専用マシン)
- ネットワーク: outbound を必要最小限にホワイトリスト
- 認証: 操作対象サービスの認証情報を環境変数で安全に渡す
- ログ: 画像 + アクション履歴を全保存 (監査・デバッグ用)
- タイムアウト: 1 タスクあたり最大時間を設定
- 人間承認: 重要操作 (送信・削除等) は人間に確認を求める設計
セキュリティと倫理のチェックリスト
技術面
- [ ] サンドボックス VM で隔離
- [ ] 機密情報・本番データへのアクセス禁止
- [ ] outbound ネットワークをホワイトリスト
- [ ] 画像 + アクション履歴をログ保存
- [ ] 人間承認を組み込み (重要操作前)
- [ ] 緊急停止機構 (kill switch)
倫理・規約面
- ❌ CAPTCHA 突破は禁止 (規約違反、倫理的にも NG)
- ❌ 他人のアカウントへの不正操作 (法的リスク)
- ❌ スクレイピングで robots.txt を無視
- ❌ レート制限を踏み越える大量アクセス
- ✅ 対象サービスの利用規約を遵守
苦手・注意点
| 課題 | 対策 |
|---|---|
| 遅い (1 操作に画像 + 思考) | バッチ処理を許容、急ぎは従来 RPA |
| 誤クリック | 重要操作前に人間承認 |
| CAPTCHA で詰まる | 想定して避ける UI 経路を設計 |
| モバイル UI で苦戦 | デスクトップ UI を優先 |
| 複雑な状態 (タブ多数) | タスクをシンプルなシナリオに分割 |
| レート制限 | 適切な wait を入れる |
私の会社では古い社内 CRM (Web GUI) のデータ抽出に毎週 4 時間かけています。Claude の Computer Use を使う前提で、この自動化のステップ・サンドボックス構成・必要なガードレール・期待効果と各リスクへの対策を設計してください。