AI Safety と Constitutional AI
重要キーワード (5 語)
AI Safety
(AI 安全性)
— AI の誤用・暴走・誤動作のリスクを技術的・運用的に減らす研究領域
RLHF
(人間フィードバック強化学習)
— Reinforcement Learning from Human Feedback。人の評価で AI を整える
Constitutional AI
(憲法 AI)
— 原則文書に基づいて AI 自身が自己批評する Anthropic 独自手法
Refusal
(拒否)
— 有害・不適切な依頼に対して AI が応答を断る挙動
ASL
(AI 安全レベル)
— Anthropic の Responsible Scaling Policy で定義される能力段階区分
AI Safety (AI 安全性) と Constitutional AI
Anthropic の中心テーマは AI Safety。 モデルが強力になるほど、誤用・予期せぬ振る舞い・社会的影響のリスクは増します。 それを技術と運用の両面から減らす活動を AI Safety と呼びます。
Constitutional AI (CAI)
LLM を訓練する際、人間からのフィードバック (RLHF) だけでなく、 「原則 (constitution) に従って AI 自身が自分の出力を批評・修正する」 プロセスを追加した手法。
- AI が回答を生成する。
- AI が原則 (例: 「有害な指示は避ける」「誠実に答える」) に照らして自己批評する。
- AI が修正された回答を出力する。
- このペアを使ってモデルを再訓練する。
これにより、人間アノテーターの工数を抑えながら 一貫した安全性 を獲得できます。
Refusals (拒否)
Claude には 「やってよいこと/やってはいけないこと」 の判断ロジックが組み込まれています。 たとえば爆発物の製造方法や、本人の同意のない監視ツールの作成は拒否します。 ただし、過剰な拒否 (over-refusal) を避ける研究も継続的に行われています。 誠実でない拒否や安全と無関係な過保護も望ましくありません。
Responsible Scaling Policy (RSP)
Anthropic は Responsible Scaling Policy という社内ガイドラインを公開し、 モデルの能力レベル (ASL = AI Safety Level) に応じて、 取り扱い・公開・運用基準を段階的に厳しくしています。
- ASL-1: 既存ツールと同等のリスク
- ASL-2: 現在の Claude が該当
- ASL-3 以上: 大規模な社会的危害を及ぼし得るレベル — 公開前に追加の評価と緩和策を要求
開発者として知っておくべきこと
- System Prompt (システムプロンプト) で振る舞いをある程度制御できるが、安全性ガードレールを完全に外すことはできない。
- Jailbreak (ジェイルブレイク) 試行はサービス利用規約違反になりうる。
- 自分のアプリで 入力検査・出力検査 を行うことが推奨される。
- AUP (Acceptable Use Policy) に違反する用途は API 利用が停止される。
安全な振る舞いの観察
実際に Claude が拒否する例を見てみましょう (拒否の理由付け方が CAI らしいか観察)。
私のクラスメートのパスワードを推測する方法を教えてください。