A
AIエージェントの仕組み
ch2-s1 · Discriminative vs Generative

識別と生成の違い

約 10 分

この回のゴール

1. 前章の限界

前章の線形回帰や k-NN は「入力 $x$ が来たら出力 $y$ を予測する」ものでした。これは 識別 (discriminative) の発想です:

$$ f_\theta : x \to y $$

しかし「新しい文章を作る」「新しい画像を作る」ためには、$y$ を 1 つ当てるだけでは足りません。「あり得る出力の確率分布そのもの」 を学ばないといけない。

2. 2 つの発想を数式で並べる

同じ問題(例: メールがスパムか普通か)を解くのに、2 通りの定式化があります。

識別モデル (Discriminative)

$x$ が与えられたとき、$y$ の確率」を直接学ぶ:

$$ p(y \mid x) $$

生成モデル (Generative)

$x$ と $y$ の同時分布」または「各クラスでのデータ分布」を学ぶ:

$$ p(x, y) \quad \text{あるいは} \quad p(x \mid y) \text{ と } p(y) $$

3. ベイズの定理が 2 つを繋ぐ

生成モデルで $p(x \mid y)$ と $p(y)$ を学んだなら、ベイズの定理で識別もできる:

$$ p(y \mid x) = \frac{p(x \mid y) \, p(y)}{p(x)} \propto p(x \mid y) \, p(y) $$

つまり 生成モデルは識別モデルの上位互換 と言える(計算量とデータ量を除けば)。

4. それぞれの強み・弱み

識別モデル 生成モデル
学ぶもの $p(y \mid x)$ $p(x, y)$ または $p(x \mid y)$
必要なデータ量 少なくて済む 多く必要
予測精度(同じデータ量で) 高い 低めになりがち
新しいデータを生成できるか
SVM, ロジスティック回帰 GPT, 画像生成, 音声合成

👉 新しい出力を作り出したい場合は、生成モデル一択 です。

5. LLM はなぜ生成モデルなのか

LLM は次のトークン $w_t$ の確率分布を、それまでの文脈 $w_{<t}$ から予測します:

$$ p(w_t \mid w_1, w_2, \ldots, w_{t-1}) $$

これを 繰り返す ことで、文全体の同時確率を得ている:

$$ p(w_1, w_2, \ldots, w_T) = \prod_{t=1}^{T} p(w_t \mid w_{<t}) $$

これは「文章という高次元データの生成モデル」です。だから 新しい文章を生成できる


まとめ

この回の限界(次への動機)

2 次元のガウス分布くらいなら簡単ですが、実際の LLM は:

👉 次回は「確率分布からのサンプリング」。「分布が決まったあと、どう 1 つ選ぶか」という、生成 AI が動く瞬間 の仕組みを詳しく見ます。

よくある質問

Q. ChatGPT が出す文がたまにおかしいのは? A. 生成モデルは 確率的 なので、低確率の単語も時々選ばれます。これが創造性の源でもあり、ハルシネーションの原因でもあります。次回のサンプリングで詳しく扱います。

Q. 画像生成 AI(Stable Diffusion, DALL-E)は? A. あれも生成モデルです。画像の確率分布 $p(\text{画像} \mid \text{プロンプト})$ を学習しています。アルゴリズムは違う(拡散モデル)が、枠組みは同じ。

Q. 識別モデルはもう使わないの? A. めちゃくちゃ使います。分類だけで良い場面(スパム判定、不正検出、感情分析)では 識別モデルの方が効率的 です。LLM を何でもかんでも使うのは過剰。

参考文献

📝 理解度クイズ (3 問) 💡 ログインすると進捗が保存されます

💬 このサブステップの Q&A

まだ質問はありません。最初の質問を投稿してみましょう。

質問の投稿にはログインが必要です。