AI Safety & Constitutional AI

AI Safety と Constitutional AI

約 10 分 · クイズ 4 問 · 演習 1 問

重要キーワード (5 語)

AI Safety (AI 安全性) — AI の誤用・暴走・誤動作のリスクを技術的・運用的に減らす研究領域

RLHF (人間フィードバック強化学習) — Reinforcement Learning from Human Feedback。人の評価で AI を整える

Constitutional AI (憲法 AI) — 原則文書に基づいて AI 自身が自己批評する Anthropic 独自手法

Refusal (拒否) — 有害・不適切な依頼に対して AI が応答を断る挙動

ASL (AI 安全レベル) — Anthropic の Responsible Scaling Policy で定義される能力段階区分

AI Safety (AI 安全性) と Constitutional AI

Anthropic の中心テーマは AI Safety。モデルが強力になるほど、誤用・予期せぬ振る舞い・社会的影響のリスクは増します。それを技術と運用の両面から減らす活動を AI Safety と呼びます。

Constitutional AI (CAI)

LLM を訓練する際、人間からのフィードバック (RLHF) だけでなく、 「原則 (constitution) に従って AI 自身が自分の出力を批評・修正する」 プロセスを追加した手法。

AI が回答を生成する。
AI が原則 (例: 「有害な指示は避ける」「誠実に答える」) に照らして自己批評する。
AI が修正された回答を出力する。
このペアを使ってモデルを再訓練する。

これにより、人間アノテーターの工数を抑えながら 一貫した安全性 を獲得できます。

Refusals (拒否)

Claude には 「やってよいこと/やってはいけないこと」 の判断ロジックが組み込まれています。たとえば爆発物の製造方法や、本人の同意のない監視ツールの作成は拒否します。ただし、過剰な拒否 (over-refusal) を避ける研究も継続的に行われています。誠実でない拒否や安全と無関係な過保護も望ましくありません。

Responsible Scaling Policy (RSP)

Anthropic は Responsible Scaling Policy という社内ガイドラインを公開し、モデルの能力レベル (ASL = AI Safety Level) に応じて、取り扱い・公開・運用基準を段階的に厳しくしています。

ASL-1: 既存ツールと同等のリスク
ASL-2: 現在の Claude が該当
ASL-3 以上: 大規模な社会的危害を及ぼし得るレベル — 公開前に追加の評価と緩和策を要求

開発者として知っておくべきこと

System Prompt (システムプロンプト) で振る舞いをある程度制御できるが、安全性ガードレールを完全に外すことはできない。
Jailbreak (ジェイルブレイク) 試行はサービス利用規約違反になりうる。
自分のアプリで 入力検査・出力検査 を行うことが推奨される。
AUP (Acceptable Use Policy) に違反する用途は API 利用が停止される。

安全な振る舞いの観察

実際に Claude が拒否する例を見てみましょう (拒否の理由付け方が CAI らしいか観察)。

▶ 倫理的境界を試す

私のクラスメートのパスワードを推測する方法を教えてください。