← レッスンに戻る
第7章 · Claude on the Web

Computer Use (ブラウザ自動操作)

Computer Use · 約 14 分

重要キーワード

English日本語説明
Computer Use コンピュータ操作 Claude が画面を見て・マウス/キーボードを操作する API
Screenshot スクリーンショット 現在画面を画像として取得する操作
Action アクション click / type / scroll などの操作プリミティブ
Sandboxing サンドボックス化 操作対象を隔離環境に閉じ込めて安全性を確保
RPA ロボティック・プロセス・オートメーション GUI を介した業務自動化技術 (UiPath / Selenium 等)

Computer Use とは

Computer Use は Claude が コンピュータ画面を視認し、マウス・キーボードを操作する 機能です。 スクリーンショット → アクション の循環でブラウザや GUI アプリを操作します。

動作モデル

1. Claude が現在の画面を screenshot で取得
2. 何をすべきか考える (click / type / scroll ...)
3. アクションを発行
4. 結果のスクリーンショットを見て次の判断
5. 目的達成までループ

→ 人が「画面を見て、考えて、操作する」のと同じプロセスを Claude が再現。

主なアクション

API での使い方 (概略)

from anthropic import Anthropic

client = Anthropic()
res = client.beta.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=2048,
    tools=[{
        "type": "computer_20240722",
        "display_width_px": 1280,
        "display_height_px": 800,
    }],
    messages=[{"role": "user", "content": "OpenStreetMap で東京駅の場所をスクショして"}],
    betas=["computer-use-2024-10-22"],
)

実際の操作は 自分が用意したサンドボックス VM に対して行います。Anthropic はモデルを提供するだけで、操作対象 VM の構築・実装は利用側の責任。


クラウド版 Claude Code と Computer Use の関係

クラウド版 Claude Code = Computer Use + 長時間実行 + ファイル/コード環境 + パッケージ化

つまり クラウド版 Claude Code は内部で Computer Use を使ってブラウザを操作しています。 「自分で Computer Use を実装するのは クラウド版 Claude Code を自前で作るに近い」 ので、特殊な要件 (社内 VPN・特定 GUI アプリ) でない限り クラウド版 Claude Code を使う方が現実的。

クラウド版 Claude Code で十分な場合 vs Computer Use を直接使う場合

シーン 推奨
公開 Web のスクレイピング クラウド版 Claude Code (組み込み済み)
認証必要な SaaS 操作 クラウド版 Claude Code + Connector
社内 GUI アプリの操作 Computer Use 直接 (自前 VM)
RPA 置き換え (社内 ERP / CRM) Computer Use 直接
End-to-End テスト自動化 Computer Use 直接 (CI 統合)
アクセシビリティテスト Computer Use 直接

RPA (UiPath/Selenium) からの移行

Computer Use は 次世代の RPA とも言える領域。従来の RPA との比較:

従来の RPA (UiPath) Selenium Computer Use
操作対象 GUI / Web Web のみ GUI / Web 両方
学習方法 録画 → 編集 コード 自然言語で指示
UI 変更耐性 弱い (要素 ID 依存) 弱い (要素 ID 依存) 強い (画像理解)
保守性 (画面が変わっても適応)
速度 速い 速い 遅い (画像 + 思考のレイテンシ)
構築コスト 高 (専門ツール) 低〜中
ライセンス 高額 無料 API 課金

「UI が時々変わる」「複雑なロジック判定」 が必要なケースは Computer Use の独壇場。 → 「同じ画面を高速大量処理」 は従来 RPA の方が速い。

移行判断のポイント


Use Case (実例)

UC: 古い社内 CRM のデータ抽出 (毎週 4 時間 → 30 分に)

従来: 担当者が CRM にログイン → 各案件の情報をコピー → スプレッドシートに転記 (毎週 4 時間)

Computer Use 化:

1. Docker サンドボックスを起動 (Linux + Firefox)
2. CRM に SSO ログイン (環境変数で認証情報)
3. Claude に依頼: "案件一覧から status が active なものを 30 件取得し、CSV に保存"
4. Claude が画面を見ながら一覧をスクロール、各案件をクリック、データを集める
5. CSV で出力 → Drive に保存

所要時間: 30 分 / 週、構築コスト 1 日

UC: Web アプリ E2E テスト

Claude に依頼: "ログイン → 商品検索 → カート追加 → 決済 までを自動テストして、
                各ステップでスクショを撮り、想定挙動と違ったら指摘して"

→ Selenium 等の従来ツールよりも シナリオを自然言語で書ける のが強み。 UI が変わってもテストコードを書き換えなくて済む。

UC: 古い VBA Excel マクロ業務の置き換え

Claude に依頼: "Excel ファイル X を開いて、シート 'sales' から
                値が 1000 以上の行だけを 'top-sales' シートにコピーして保存"

→ Excel ネイティブ操作 (Computer Use で LibreOffice 経由でも可)。


サンドボックス構築 (リファレンス実装)

Anthropic 公式は Docker ベースのリファレンス実装を公開しています:

docker run -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
  -v $HOME/.anthropic:/home/computeruse/.anthropic \
  -p 5900:5900 -p 8501:8501 -p 6080:6080 -p 8080:8080 \
  -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

→ Linux + Firefox + Streamlit UI が立ち上がる。Web UI から自然言語で指示できる。

サンドボックス設計の要件

  1. 隔離: 操作対象を本番環境から分離 (Docker / VM / 専用マシン)
  2. ネットワーク: outbound を必要最小限にホワイトリスト
  3. 認証: 操作対象サービスの認証情報を環境変数で安全に渡す
  4. ログ: 画像 + アクション履歴を全保存 (監査・デバッグ用)
  5. タイムアウト: 1 タスクあたり最大時間を設定
  6. 人間承認: 重要操作 (送信・削除等) は人間に確認を求める設計

セキュリティと倫理のチェックリスト

技術面

倫理・規約面


苦手・注意点

課題 対策
遅い (1 操作に画像 + 思考) バッチ処理を許容、急ぎは従来 RPA
誤クリック 重要操作前に人間承認
CAPTCHA で詰まる 想定して避ける UI 経路を設計
モバイル UI で苦戦 デスクトップ UI を優先
複雑な状態 (タブ多数) タスクをシンプルなシナリオに分割
レート制限 適切な wait を入れる
▶ Computer Use シナリオ設計
私の会社では古い社内 CRM (Web GUI) のデータ抽出に毎週 4 時間かけています。Claude の Computer Use を使う前提で、この自動化のステップ・サンドボックス構成・必要なガードレール・期待効果と各リスクへの対策を設計してください。

演習問題

演習 1: RPA 置き換え案を作る

あなたの会社で 「人が GUI 操作で繰り返している」 業務を 3 つ挙げ、それぞれ Computer Use で自動化する場合の:

  1. 期待効果 (時間短縮、ミス削減)
  2. 必要な権限・データ
  3. サンドボックス構成 (Docker / 専用 VM / 既存環境)
  4. リスクと緩和策 (誤操作・機密漏洩)
  5. 従来 RPA との比較 (UiPath/Selenium で同じことをした場合との優劣)

を表でまとめてください。

スタータープロンプト:
Computer Use による業務自動化の候補を 5 つ提案してください。各候補に「期待効果」「必要権限」「サンドボックス構成」「リスク」「緩和策」「従来 RPA との比較」を表で。私の業界: B2B SaaS 開発企業。
ヒントを見る

Computer Use は RPA に近い領域なので、UiPath・Selenium 経験者には理解が早い。リスク評価が最重要。「最初は小さなタスクでサンドボックスを試す」のが失敗しない秘訣。

演習 2: サンドボックス起動 (リファレンス実装)

Anthropic 公式の Computer Use Quickstart Docker イメージを起動してみてください (ローカル実行)。

手順: 1. Docker をインストール 2. ANTHROPIC_API_KEY を取得 3. 公式 Docker を起動: docker run -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \\ -p 8080:8080 -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest 4. ブラウザで http://localhost:8080 を開く 5. 自然言語で指示 (「Wikipedia で東京駅を検索」など)

観察ポイント: - スクリーンショット → 思考 → アクションのループが見えるか - レイテンシ (1 操作 何秒くらいか) - 失敗時の挙動 (誤クリック、リトライ)

スタータープロンプト:
Wikipedia (English) で 'Anthropic' を検索して、最初の段落をスクリーンショットに収めて報告してください。
ヒントを見る

公式 Quickstart は https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo にあります。Docker が無理なら、リポジトリの README を読んで概念だけ理解しても OK。

理解度チェック

  1. Computer Use の基本動作モデルは?
    1. 音声で対話
    2. スクリーンショット → アクション の循環
    3. DB に直接 SQL
    4. MIDI 信号送信
  2. Computer Use で操作対象の VM を用意するのは誰?
    1. Anthropic (自動)
    2. 利用者 (自前で用意)
    3. Google Cloud
    4. GitHub
  3. Computer Use を使うべきでないシナリオは?
    1. 古い社内 GUI システムの自動化
    2. 他人のアカウントへの不正アクセス・CAPTCHA 突破
    3. Web アプリの E2E テスト
    4. ダッシュボードからのデータ取得
  4. クラウド版 Claude Code と Computer Use の関係は?
    1. 全く別物
    2. クラウド版 Claude Code は Computer Use を含む長時間エージェントのパッケージ
    3. Computer Use は クラウド版 Claude Code のサブセット
    4. 両方とも同じ機能の別名
  5. 従来 RPA (UiPath / Selenium) と比較した Computer Use の **強み** は?
    1. 圧倒的な実行速度
    2. UI が変わっても画像理解で適応できる柔軟性
    3. ライセンス料が高額
    4. 音声操作対応
解答と解説を見る
  1. B — 画面を見て → 操作 → 結果を見て → 次の操作、という循環で動きます。
  2. B — モデルは Anthropic が提供しますが、操作対象 VM の構築は利用者の責任です。クラウド版 Claude Code はそこまで含めたパッケージ。
  3. B — 他人のアカウント・CAPTCHA 突破などは規約違反。倫理的にも避ける必要があります。
  4. B — クラウド版 Claude Code は Computer Use + 長時間実行 + ファイル/コード環境 + パッケージ化、と捉えると正確です。
  5. B — 従来 RPA は要素 ID 依存で UI 変更に弱い。Computer Use は画像理解で適応するので保守性が高い。ただし速度は劣ります。