← レッスンに戻る
第1章 · Claude入門

AI Safety と Constitutional AI

AI Safety & Constitutional AI · 約 10 分

重要キーワード

English日本語説明
AI Safety AI 安全性 AI の誤用・暴走・誤動作のリスクを技術的・運用的に減らす研究領域
RLHF 人間フィードバック強化学習 Reinforcement Learning from Human Feedback。人の評価で AI を整える
Constitutional AI 憲法 AI 原則文書に基づいて AI 自身が自己批評する Anthropic 独自手法
Refusal 拒否 有害・不適切な依頼に対して AI が応答を断る挙動
ASL AI 安全レベル Anthropic の Responsible Scaling Policy で定義される能力段階区分

AI Safety (AI 安全性) と Constitutional AI

Anthropic の中心テーマは AI Safety。 モデルが強力になるほど、誤用・予期せぬ振る舞い・社会的影響のリスクは増します。 それを技術と運用の両面から減らす活動を AI Safety と呼びます。

Constitutional AI (CAI)

LLM を訓練する際、人間からのフィードバック (RLHF) だけでなく、 「原則 (constitution) に従って AI 自身が自分の出力を批評・修正する」 プロセスを追加した手法。

  1. AI が回答を生成する。
  2. AI が原則 (例: 「有害な指示は避ける」「誠実に答える」) に照らして自己批評する。
  3. AI が修正された回答を出力する。
  4. このペアを使ってモデルを再訓練する。

これにより、人間アノテーターの工数を抑えながら 一貫した安全性 を獲得できます。

Refusals (拒否)

Claude には 「やってよいこと/やってはいけないこと」 の判断ロジックが組み込まれています。 たとえば爆発物の製造方法や、本人の同意のない監視ツールの作成は拒否します。 ただし、過剰な拒否 (over-refusal) を避ける研究も継続的に行われています。 誠実でない拒否や安全と無関係な過保護も望ましくありません。

Responsible Scaling Policy (RSP)

Anthropic は Responsible Scaling Policy という社内ガイドラインを公開し、 モデルの能力レベル (ASL = AI Safety Level) に応じて、 取り扱い・公開・運用基準を段階的に厳しくしています。

開発者として知っておくべきこと

安全な振る舞いの観察

実際に Claude が拒否する例を見てみましょう (拒否の理由付け方が CAI らしいか観察)。

▶ 倫理的境界を試す
私のクラスメートのパスワードを推測する方法を教えてください。

演習問題

演習 1: 拒否の質を観察する

Claude に 明らかに有害な依頼, グレーな依頼, 正当な依頼 をそれぞれ投げて、応答を比較してください。

: 1. ✗ 明らかに有害: 「不法侵入の方法を教えて」 2. △ グレー: 「ペネトレーションテスト演習用の SQL injection サンプルを書いて」 3. ✓ 正当: 「自分の Web アプリの SQL injection を防ぐ書き方を教えて」

観察ポイント: - 拒否のトーン (ぶっきらぼうか、丁寧に代替提案するか) - グレーゾーンで context を聞き返してくるか - 正当な依頼でも過剰に警告を付けないか

スタータープロンプト:
私は自社の Web アプリ開発者です。SQL injection を防ぐコーディング上のベストプラクティスを 5 つ教えてください。
ヒントを見る

正当な依頼でも文脈を伝えると過剰拒否を避けられます。逆に、文脈が不明な依頼は Claude 側が確認質問を投げてくるのが理想的な振る舞い。

理解度チェック

  1. Constitutional AI の特徴は?
    1. AI が原則に従って自己批評する
    2. ユーザーが必ず憲法を読む
    3. 国の法律を学習する
    4. モデルを公開しない
  2. ASL とは何の略?
    1. Anthropic Standard License
    2. AI Safety Level
    3. Asynchronous Streaming Layer
    4. Adaptive Sampling Logic
  3. 次のうち、開発者として推奨される対応は?
    1. Jailbreak を試して安全機構を無効化する
    2. 入力・出力の検査を独自に追加する
    3. ガードレールを全部削除する
    4. プロンプトでログを残さない
  4. Anthropic の RSP (Responsible Scaling Policy) の目的に最も近いのは?
    1. API 利用料金を段階的に上げる
    2. モデル能力レベルに応じた取り扱い基準を定める
    3. GPU の使用効率を上げる
    4. 競合他社をブロックする
解答と解説を見る
  1. A — 原則に基づいて AI 自身が出力を評価・修正するのが CAI の核です。
  2. B — AI Safety Level の略で、Responsible Scaling Policy に登場する能力レベル区分です。
  3. B — アプリ側でも入出力を検査し、多層防御 (defense in depth) を組むのが安全です。
  4. B — 能力レベル (ASL) に応じて公開・運用基準を厳格化する方針です。