この回のゴール
- 「識別 (discriminative)」と「生成 (generative)」の違いを 数式レベル で理解する
- ベイズの定理 がこの 2 つを繋ぐことを把握する
- LLM がなぜ「生成」モデルなのかを腹落ちさせる
1. 前章の限界
前章の線形回帰や k-NN は「入力 $x$ が来たら出力 $y$ を予測する」ものでした。これは 識別 (discriminative) の発想です:
$$ f_\theta : x \to y $$
しかし「新しい文章を作る」「新しい画像を作る」ためには、$y$ を 1 つ当てるだけでは足りません。「あり得る出力の確率分布そのもの」 を学ばないといけない。
2. 2 つの発想を数式で並べる
同じ問題(例: メールがスパムか普通か)を解くのに、2 通りの定式化があります。
識別モデル (Discriminative)
「$x$ が与えられたとき、$y$ の確率」を直接学ぶ:
$$ p(y \mid x) $$
- 例: ロジスティック回帰、サポートベクターマシン、ニューラルネット分類器
- $x$ から $y$ への境界 を引くだけ
生成モデル (Generative)
「$x$ と $y$ の同時分布」または「各クラスでのデータ分布」を学ぶ:
$$ p(x, y) \quad \text{あるいは} \quad p(x \mid y) \text{ と } p(y) $$
- 例: ナイーブベイズ、GMM、GPT 系 LLM、拡散モデル
- データがどう作られるか をモデル化
3. ベイズの定理が 2 つを繋ぐ
生成モデルで $p(x \mid y)$ と $p(y)$ を学んだなら、ベイズの定理で識別もできる:
$$ p(y \mid x) = \frac{p(x \mid y) \, p(y)}{p(x)} \propto p(x \mid y) \, p(y) $$
つまり 生成モデルは識別モデルの上位互換 と言える(計算量とデータ量を除けば)。
4. それぞれの強み・弱み
| 識別モデル | 生成モデル | |
|---|---|---|
| 学ぶもの | $p(y \mid x)$ | $p(x, y)$ または $p(x \mid y)$ |
| 必要なデータ量 | 少なくて済む | 多く必要 |
| 予測精度(同じデータ量で) | 高い | 低めになりがち |
| 新しいデータを生成できるか | ❌ | ✅ |
| 例 | SVM, ロジスティック回帰 | GPT, 画像生成, 音声合成 |
👉 新しい出力を作り出したい場合は、生成モデル一択 です。
5. LLM はなぜ生成モデルなのか
LLM は次のトークン $w_t$ の確率分布を、それまでの文脈 $w_{<t}$ から予測します:
$$ p(w_t \mid w_1, w_2, \ldots, w_{t-1}) $$
これを 繰り返す ことで、文全体の同時確率を得ている:
$$ p(w_1, w_2, \ldots, w_T) = \prod_{t=1}^{T} p(w_t \mid w_{<t}) $$
これは「文章という高次元データの生成モデル」です。だから 新しい文章を生成できる。
まとめ
- 識別モデル は $p(y \mid x)$ を学ぶ(クラス境界を引くだけ)
- 生成モデル は $p(x \mid y)$ や $p(x, y)$ を学ぶ(データがどう生まれるかをモデル化)
- 生成モデルからはベイズ則で識別も導ける(上位互換)
- しかし 新しいデータを作れる のは生成モデルだけ
- LLM は生成モデル
この回の限界(次への動機)
2 次元のガウス分布くらいなら簡単ですが、実際の LLM は:
- 数万次元のトークン語彙 の上で確率分布を作る
- softmax で normalize する必要がある
- temperature や top-k など サンプリングの工夫 が挙動を大きく変える
👉 次回は「確率分布からのサンプリング」。「分布が決まったあと、どう 1 つ選ぶか」という、生成 AI が動く瞬間 の仕組みを詳しく見ます。
よくある質問
Q. ChatGPT が出す文がたまにおかしいのは? A. 生成モデルは 確率的 なので、低確率の単語も時々選ばれます。これが創造性の源でもあり、ハルシネーションの原因でもあります。次回のサンプリングで詳しく扱います。
Q. 画像生成 AI(Stable Diffusion, DALL-E)は? A. あれも生成モデルです。画像の確率分布 $p(\text{画像} \mid \text{プロンプト})$ を学習しています。アルゴリズムは違う(拡散モデル)が、枠組みは同じ。
Q. 識別モデルはもう使わないの? A. めちゃくちゃ使います。分類だけで良い場面(スパム判定、不正検出、感情分析)では 識別モデルの方が効率的 です。LLM を何でもかんでも使うのは過剰。
参考文献
- Bishop Pattern Recognition and Machine Learning Ch.1.5, 4.2
- Andrew Ng, Generative Learning Algorithms(CS229 講義ノート)