識別と生成の違い - AIエージェントの仕組み

この回のゴール

「識別 (discriminative)」と「生成 (generative)」の違いを 数式レベル で理解する
ベイズの定理 がこの 2 つを繋ぐことを把握する
LLM がなぜ「生成」モデルなのかを腹落ちさせる

1. 前章の限界

前章の線形回帰や k-NN は「入力 $x$ が来たら出力 $y$ を予測する」ものでした。これは 識別 (discriminative) の発想です:

$$ f_\theta : x \to y $$

しかし「新しい文章を作る」「新しい画像を作る」ためには、$y$ を 1 つ当てるだけでは足りません。「あり得る出力の確率分布そのもの」 を学ばないといけない。

2. 2 つの発想を数式で並べる

同じ問題(例: メールがスパムか普通か)を解くのに、2 通りの定式化があります。

識別モデル (Discriminative)

「$x$ が与えられたとき、$y$ の確率」を直接学ぶ:

$$ p(y \mid x) $$

例: ロジスティック回帰、サポートベクターマシン、ニューラルネット分類器
$x$ から $y$ への境界 を引くだけ

生成モデル (Generative)

「$x$ と $y$ の同時分布」または「各クラスでのデータ分布」を学ぶ:

$$ p(x, y) \quad \text{あるいは} \quad p(x \mid y) \text{ と } p(y) $$

例: ナイーブベイズ、GMM、GPT 系 LLM、拡散モデル
データがどう作られるか をモデル化

3. ベイズの定理が 2 つを繋ぐ

生成モデルで $p(x \mid y)$ と $p(y)$ を学んだなら、ベイズの定理で識別もできる:

$$ p(y \mid x) = \frac{p(x \mid y) \, p(y)}{p(x)} \propto p(x \mid y) \, p(y) $$

つまり 生成モデルは識別モデルの上位互換 と言える(計算量とデータ量を除けば)。

4. それぞれの強み・弱み

	識別モデル	生成モデル
学ぶもの	$p(y \mid x)$	$p(x, y)$ または $p(x \mid y)$
必要なデータ量	少なくて済む	多く必要
予測精度(同じデータ量で)	高い	低めになりがち
新しいデータを生成できるか	❌	✅
例	SVM, ロジスティック回帰	GPT, 画像生成, 音声合成

👉 新しい出力を作り出したい場合は、生成モデル一択 です。

5. LLM はなぜ生成モデルなのか

LLM は次のトークン $w_t$ の確率分布を、それまでの文脈 $w_{<t}$ から予測します:

$$ p(w_t \mid w_1, w_2, \ldots, w_{t-1}) $$

これを 繰り返す ことで、文全体の同時確率を得ている:

$$ p(w_1, w_2, \ldots, w_T) = \prod_{t=1}^{T} p(w_t \mid w_{<t}) $$

これは「文章という高次元データの生成モデル」です。だから 新しい文章を生成できる。

まとめ

識別モデル は $p(y \mid x)$ を学ぶ(クラス境界を引くだけ)
生成モデル は $p(x \mid y)$ や $p(x, y)$ を学ぶ(データがどう生まれるかをモデル化)
生成モデルからはベイズ則で識別も導ける(上位互換)
しかし 新しいデータを作れる のは生成モデルだけ
LLM は生成モデル

この回の限界(次への動機)

2 次元のガウス分布くらいなら簡単ですが、実際の LLM は:

数万次元のトークン語彙 の上で確率分布を作る
softmax で normalize する必要がある
temperature や top-k など サンプリングの工夫 が挙動を大きく変える

👉 次回は「確率分布からのサンプリング」。「分布が決まったあと、どう 1 つ選ぶか」という、生成 AI が動く瞬間 の仕組みを詳しく見ます。

よくある質問

Q. ChatGPT が出す文がたまにおかしいのは? A. 生成モデルは 確率的 なので、低確率の単語も時々選ばれます。これが創造性の源でもあり、ハルシネーションの原因でもあります。次回のサンプリングで詳しく扱います。

Q. 画像生成 AI(Stable Diffusion, DALL-E)は? A. あれも生成モデルです。画像の確率分布 $p(\text{画像} \mid \text{プロンプト})$ を学習しています。アルゴリズムは違う(拡散モデル)が、枠組みは同じ。

Q. 識別モデルはもう使わないの? A. めちゃくちゃ使います。分類だけで良い場面(スパム判定、不正検出、感情分析)では 識別モデルの方が効率的 です。LLM を何でもかんでも使うのは過剰。

参考文献

Bishop Pattern Recognition and Machine Learning Ch.1.5, 4.2
Andrew Ng, Generative Learning Algorithms(CS229 講義ノート)