トークン化 - AIエージェントの仕組み

この回のゴール

前章の N-gram は「スペース区切り」で単語を扱いました。でも実用上:

👉 だから サブワード分割(単語より小さい単位)が必要。

粒度	単位	例: "unbelievable"	問題
文字	1 文字	u-n-b-e-l-i-e-v-a-b-l-e	系列が長すぎる
単語	1 単語	unbelievable	未知語・活用に弱い
サブワード	部分単語	un-believ-able	🎯 ちょうど良い

LLM は サブワード分割 を採用しています。

GPT/Claude 系で使われる主要なアルゴリズム。直感は「よく出るペアを 1 つの記号にまとめていく」。

TOOLS = [{"name": "...", "input_schema": {...}}]
TOOL_FUNCS = {"...": lambda: ...}

結果として よく使われる単位 が 1 トークンになり、珍しい単語は複数トークン になる。

Claude / GPT 系のトークナイザは主に 英語コーパス で学習されています。その結果:

言語	文字数	トークン数	1 トークンあたり文字
英語 "Hello, how are you?"	20	6	3.3
日本語「こんにちは、元気ですか?」	13	~12	1.1

日本語は英語の約 3 倍のトークンを消費 → API 料金も約 3 倍。

これは現代 LLM の重要な実務知識です。

LLM では 意味を持つ特殊トークン がいくつか予約されています:

チャットモデル (ChatGPT, Claude) では 会話の役割 も特殊トークンで区切られています。

トークン化したら、ID は単なる数字。意味の近さ・遠さは数字 ID から読み取れない。 👉 次回「埋め込みベクトル」では、トークン ID を 意味を持つ密ベクトル に変換します。

Sennrich et al. (2016) Neural Machine Translation of Rare Words with Subword Units — BPE 論文
OpenAI Tokenizer — 公式可視化ツール
tiktoken: OpenAI 公式トークナイザライブラリ