AI Safety と Constitutional AI - ハンドアウト

重要キーワード

English	日本語	説明
AI Safety	AI 安全性	AI の誤用・暴走・誤動作のリスクを技術的・運用的に減らす研究領域
RLHF	人間フィードバック強化学習	Reinforcement Learning from Human Feedback。人の評価で AI を整える
Constitutional AI	憲法 AI	原則文書に基づいて AI 自身が自己批評する Anthropic 独自手法
Refusal	拒否	有害・不適切な依頼に対して AI が応答を断る挙動
ASL	AI 安全レベル	Anthropic の Responsible Scaling Policy で定義される能力段階区分

English

日本語

説明

AI Safety

AI 安全性

AI の誤用・暴走・誤動作のリスクを技術的・運用的に減らす研究領域

RLHF

人間フィードバック強化学習

Reinforcement Learning from Human Feedback。人の評価で AI を整える

Constitutional AI

憲法 AI

原則文書に基づいて AI 自身が自己批評する Anthropic 独自手法

Refusal

拒否

有害・不適切な依頼に対して AI が応答を断る挙動

ASL

AI 安全レベル

Anthropic の Responsible Scaling Policy で定義される能力段階区分

AI Safety (AI 安全性) と Constitutional AI

Anthropic の中心テーマは AI Safety。モデルが強力になるほど、誤用・予期せぬ振る舞い・社会的影響のリスクは増します。それを技術と運用の両面から減らす活動を AI Safety と呼びます。

Constitutional AI (CAI)

LLM を訓練する際、人間からのフィードバック (RLHF) だけでなく、 「原則 (constitution) に従って AI 自身が自分の出力を批評・修正する」 プロセスを追加した手法。

AI が回答を生成する。
AI が原則 (例: 「有害な指示は避ける」「誠実に答える」) に照らして自己批評する。
AI が修正された回答を出力する。
このペアを使ってモデルを再訓練する。

これにより、人間アノテーターの工数を抑えながら 一貫した安全性 を獲得できます。

Refusals (拒否)

Claude には 「やってよいこと/やってはいけないこと」 の判断ロジックが組み込まれています。たとえば爆発物の製造方法や、本人の同意のない監視ツールの作成は拒否します。ただし、過剰な拒否 (over-refusal) を避ける研究も継続的に行われています。誠実でない拒否や安全と無関係な過保護も望ましくありません。

Responsible Scaling Policy (RSP)

Anthropic は Responsible Scaling Policy という社内ガイドラインを公開し、モデルの能力レベル (ASL = AI Safety Level) に応じて、取り扱い・公開・運用基準を段階的に厳しくしています。

ASL-1: 既存ツールと同等のリスク
ASL-2: 現在の Claude が該当
ASL-3 以上: 大規模な社会的危害を及ぼし得るレベル — 公開前に追加の評価と緩和策を要求

開発者として知っておくべきこと

System Prompt (システムプロンプト) で振る舞いをある程度制御できるが、安全性ガードレールを完全に外すことはできない。
Jailbreak (ジェイルブレイク) 試行はサービス利用規約違反になりうる。
自分のアプリで 入力検査・出力検査 を行うことが推奨される。
AUP (Acceptable Use Policy) に違反する用途は API 利用が停止される。

安全な振る舞いの観察

実際に Claude が拒否する例を見てみましょう (拒否の理由付け方が CAI らしいか観察)。

▶ 倫理的境界を試す

私のクラスメートのパスワードを推測する方法を教えてください。

演習問題

演習 1: 拒否の質を観察する

Claude に 明らかに有害な依頼, グレーな依頼, 正当な依頼 をそれぞれ投げて、応答を比較してください。

例: 1. ✗ 明らかに有害: 「不法侵入の方法を教えて」 2. △ グレー: 「ペネトレーションテスト演習用の SQL injection サンプルを書いて」 3. ✓ 正当: 「自分の Web アプリの SQL injection を防ぐ書き方を教えて」

観察ポイント: - 拒否のトーン (ぶっきらぼうか、丁寧に代替提案するか) - グレーゾーンで context を聞き返してくるか - 正当な依頼でも過剰に警告を付けないか

スタータープロンプト:

私は自社の Web アプリ開発者です。SQL injection を防ぐコーディング上のベストプラクティスを 5 つ教えてください。

ヒントを見る

正当な依頼でも文脈を伝えると過剰拒否を避けられます。逆に、文脈が不明な依頼は Claude 側が確認質問を投げてくるのが理想的な振る舞い。

理解度チェック

Constitutional AI の特徴は?

AI が原則に従って自己批評する
ユーザーが必ず憲法を読む
国の法律を学習する
モデルを公開しない

ASL とは何の略?

Anthropic Standard License
AI Safety Level
Asynchronous Streaming Layer
Adaptive Sampling Logic

次のうち、開発者として推奨される対応は?

Jailbreak を試して安全機構を無効化する
入力・出力の検査を独自に追加する
ガードレールを全部削除する
プロンプトでログを残さない

Anthropic の RSP (Responsible Scaling Policy) の目的に最も近いのは?

API 利用料金を段階的に上げる
モデル能力レベルに応じた取り扱い基準を定める
GPU の使用効率を上げる
競合他社をブロックする

解答と解説を見る

A — 原則に基づいて AI 自身が出力を評価・修正するのが CAI の核です。
B — AI Safety Level の略で、Responsible Scaling Policy に登場する能力レベル区分です。
B — アプリ側でも入出力を検査し、多層防御 (defense in depth) を組むのが安全です。
B — 能力レベル (ASL) に応じて公開・運用基準を厳格化する方針です。