Eval (評価) と継続的改善のクイズ

4 問。すべて選んだら採点ボタンを押してください。

Q1. Eval を CI に組み込む利点は?

プロンプト変更による品質劣化を早期検知 GPU 温度上昇を防止 API キーを更新ログを暗号化

Q2. LLM-as-Judge を使うときの注意は?

judge モデルと評価対象は別のものを使う判定 LLM はランダムで OK ユーザー入力をそのまま判定判定回数は 1 回で十分

Q3. Anthropic 公式の評価環境は?

Workbench Forge Studio BigQuery

Q4. Eval の Goldset を育てる正しいループは?

失敗例を Goldset に追加し続ける Goldset を月初に全削除正解した例だけ追加 Goldset は固定で変更しない