A
AIエージェントの仕組み
ch3-s2 · Embeddings

埋め込みベクトル

約 14 分

この回のゴール

1. なぜベクトル空間にマップするのか

前回のトークン ID (例: 1234, 5678) は ただの番号 でした。

そこで、意味的に近い単語が 空間的に近い点 になるように射影する:

$$ \text{embed} : \text{トークン} \to \mathbb{R}^d $$

典型的には $d = 256, 768, 1536, 3072$ 次元(モデルによる)。

2. 直感: 「王 - 男 + 女 = 女王」

Word2Vec (2013) で有名になった現象。

$$ \vec{v}{\text{王}} - \vec{v}{\text{男}} + \vec{v}{\text{女}} \approx \vec{v}{\text{女王}} $$

これは偶然ではなく、「意味の関係性」が ベクトルの差 として表現されるよう学習されているから。

3. どうやって学習するのか: 分布仮説

「似た文脈に現れる単語は似た意味を持つ」(Firth, 1957)

例えば:

空欄に入り得る単語同士は意味が近い。この仮説をコードにしたのが Word2Vec (skip-gram) です:

$$ L = -\sum_{(w_c, w_t)} \log p(w_c \mid w_t) $$

「対象単語 $w_t$ から 周辺単語 $w_c$ を予測」できるように埋め込みを学習する。

現代の LLM (Transformer) は 次単語予測 を通じて同じ効果が得られます。

4. 近さの測り方: コサイン類似度

2 つのベクトル $\vec{a}, \vec{b}$ の近さを測るには:

$$ \cos(\vec{a}, \vec{b}) = \frac{\vec{a} \cdot \vec{b}}{|\vec{a}| |\vec{b}|} $$

ユークリッド距離ではなく コサイン を使う理由: ベクトルの長さではなく 方向 が意味に対応しているから。

5. 単語埋め込み vs 文埋め込み

単語埋め込み 文埋め込み
Word2Vec, GloVe Sentence-BERT
入力 1 単語 1 文 or 1 段落
用途 単語類推 意味検索・RAG

文埋め込みは 第 5 章の RAG で中心的 な役割を果たします。

6. 現代 LLM との関係

LLM 内部では、各トークンが:

  1. まず 埋め込み層 で $d$ 次元ベクトルになる
  2. Transformer の各層で 文脈に応じて変化 する(contextual embedding)
  3. 最後の層で 次トークン確率 を出すために使われる

つまり、埋め込みは LLM の 入口と内部表現 の両方に関わります。


まとめ

この回の限界(次への動機)

埋め込みは「単語ごとに 1 つのベクトル」を当てる(静的)。でも「銀行」は文脈で意味が変わる(川岸 vs 金融機関)。 👉 次回「Attention 機構」では、各単語の表現を 文脈に応じて動的に作り変える 仕組みを学びます。

参考文献

📝 理解度クイズ (3 問) 💡 ログインすると進捗が保存されます

💬 このサブステップの Q&A

まだ質問はありません。最初の質問を投稿してみましょう。

質問の投稿にはログインが必要です。