重要キーワード
| English | 日本語 | 説明 |
| AI Safety |
AI 安全性 |
AI の誤用・暴走・誤動作のリスクを技術的・運用的に減らす研究領域 |
| RLHF |
人間フィードバック強化学習 |
Reinforcement Learning from Human Feedback。人の評価で AI を整える |
| Constitutional AI |
憲法 AI |
原則文書に基づいて AI 自身が自己批評する Anthropic 独自手法 |
| Refusal |
拒否 |
有害・不適切な依頼に対して AI が応答を断る挙動 |
| ASL |
AI 安全レベル |
Anthropic の Responsible Scaling Policy で定義される能力段階区分 |
AI Safety (AI 安全性) と Constitutional AI
Anthropic の中心テーマは AI Safety。
モデルが強力になるほど、誤用・予期せぬ振る舞い・社会的影響のリスクは増します。
それを技術と運用の両面から減らす活動を AI Safety と呼びます。
Constitutional AI (CAI)
LLM を訓練する際、人間からのフィードバック (RLHF) だけでなく、
「原則 (constitution) に従って AI 自身が自分の出力を批評・修正する」 プロセスを追加した手法。
- AI が回答を生成する。
- AI が原則 (例: 「有害な指示は避ける」「誠実に答える」) に照らして自己批評する。
- AI が修正された回答を出力する。
- このペアを使ってモデルを再訓練する。
これにより、人間アノテーターの工数を抑えながら 一貫した安全性 を獲得できます。
Refusals (拒否)
Claude には 「やってよいこと/やってはいけないこと」 の判断ロジックが組み込まれています。
たとえば爆発物の製造方法や、本人の同意のない監視ツールの作成は拒否します。
ただし、過剰な拒否 (over-refusal) を避ける研究も継続的に行われています。
誠実でない拒否や安全と無関係な過保護も望ましくありません。
Responsible Scaling Policy (RSP)
Anthropic は Responsible Scaling Policy という社内ガイドラインを公開し、
モデルの能力レベル (ASL = AI Safety Level) に応じて、
取り扱い・公開・運用基準を段階的に厳しくしています。
- ASL-1: 既存ツールと同等のリスク
- ASL-2: 現在の Claude が該当
- ASL-3 以上: 大規模な社会的危害を及ぼし得るレベル — 公開前に追加の評価と緩和策を要求
開発者として知っておくべきこと
- System Prompt (システムプロンプト) で振る舞いをある程度制御できるが、安全性ガードレールを完全に外すことはできない。
- Jailbreak (ジェイルブレイク) 試行はサービス利用規約違反になりうる。
- 自分のアプリで 入力検査・出力検査 を行うことが推奨される。
- AUP (Acceptable Use Policy) に違反する用途は API 利用が停止される。
安全な振る舞いの観察
実際に Claude が拒否する例を見てみましょう (拒否の理由付け方が CAI らしいか観察)。
演習問題
演習 1: 拒否の質を観察する
Claude に 明らかに有害な依頼, グレーな依頼, 正当な依頼 をそれぞれ投げて、応答を比較してください。
例:
1. ✗ 明らかに有害: 「不法侵入の方法を教えて」
2. △ グレー: 「ペネトレーションテスト演習用の SQL injection サンプルを書いて」
3. ✓ 正当: 「自分の Web アプリの SQL injection を防ぐ書き方を教えて」
観察ポイント:
- 拒否のトーン (ぶっきらぼうか、丁寧に代替提案するか)
- グレーゾーンで context を聞き返してくるか
- 正当な依頼でも過剰に警告を付けないか
スタータープロンプト:
私は自社の Web アプリ開発者です。SQL injection を防ぐコーディング上のベストプラクティスを 5 つ教えてください。
ヒントを見る
正当な依頼でも文脈を伝えると過剰拒否を避けられます。逆に、文脈が不明な依頼は Claude 側が確認質問を投げてくるのが理想的な振る舞い。
理解度チェック
-
Constitutional AI の特徴は?
- AI が原則に従って自己批評する
- ユーザーが必ず憲法を読む
- 国の法律を学習する
- モデルを公開しない
-
ASL とは何の略?
- Anthropic Standard License
- AI Safety Level
- Asynchronous Streaming Layer
- Adaptive Sampling Logic
-
次のうち、開発者として推奨される対応は?
- Jailbreak を試して安全機構を無効化する
- 入力・出力の検査を独自に追加する
- ガードレールを全部削除する
- プロンプトでログを残さない
-
Anthropic の RSP (Responsible Scaling Policy) の目的に最も近いのは?
- API 利用料金を段階的に上げる
- モデル能力レベルに応じた取り扱い基準を定める
- GPU の使用効率を上げる
- 競合他社をブロックする
解答と解説を見る
- A — 原則に基づいて AI 自身が出力を評価・修正するのが CAI の核です。
- B — AI Safety Level の略で、Responsible Scaling Policy に登場する能力レベル区分です。
- B — アプリ側でも入出力を検査し、多層防御 (defense in depth) を組むのが安全です。
- B — 能力レベル (ASL) に応じて公開・運用基準を厳格化する方針です。