ニューラルネットにおける埋め込みとベクトル空間

離散トークンが幾何学的表現へと変わる仕組みと、なぜそのベクトル空間が現代のLLMの基盤となるのか

トークン、埋め込み行列、意味ベクトル空間を示す埋め込みとベクトル空間のタイトル図 — 離散トークンから埋め込み行列を経て意味ベクトル空間と文脈依存表現へ。

要約： 埋め込みは離散記号を連続ベクトルへ写す。これによって初めて、ニューラルネットは言語やカテゴリ、その他の構造化データを数学的に扱える。

関連記事： アーキテクチャの文脈については Transformerはどう動くか？を、ニューラルネットの下層については LLMを支えるニューラルネットワークを参照されたい。

1. なぜベクトルなのか

ニューラルネットは「bank」「電圧」「トランスフォーマー」のような語をそのままでは扱えない。数値入力が必要である。そこで離散トークンを連続ベクトルへ写す。この写像が埋め込みである。

この段階が決定的である。こうして初めて言語は数学となり、線形層や注意機構、最適化アルゴリズムで処理できる。

2. 埋め込み行列とルックアップ

形式的には、トークン \(x_i\) がベクトル \(e_i\) へ写される：

\[ x_i \rightarrow e_i \in \mathbb{R}^{d} \]

実装では埋め込み行列 \(E\) を用いる：

\[ E \in \mathbb{R}^{V \times d} \]

\(V\) は語彙サイズ、\(d\) は埋め込み次元である。各トークンはこの行列の1行に対応する。埋め込み自体は単なるルックアップにすぎない：

\[ e_i = E[x_i] \]

一見単純な演算だが、実際には高次元の特徴空間への学習可能な射影である。

3. 幾何学的な意味

中心となる考え方は、意味を幾何へ翻訳することである。類似した語はベクトル空間で互いに近く、似ていない語よりも近い位置に置かれる。

典型的な類似度はコサイン類似度である：

\[ \mathrm{sim}(a,b)=\frac{a\cdot b}{\lVert a\rVert \lVert b\rVert} \]

これにより距離だけでなく空間内の方向も重要になる。多くの意味タスクでは、ベクトルの絶対的な大きさよりも方向の方が情報を運ぶ。

次のような有名な例は、

\[ \text{王} - \text{男} + \text{女} \approx \text{女王} \]

特定の意味関係が空間内の方向として現れうることを示す。魔法ではなく、学習された幾何の帰結である。

重要なのは、この構造を明示的にプログラムしていないことである。学習目標の副産物として現れる。だから埋め込みは強力なのである。ネットワーク自ら、意味的に妥当な近傍と方向が生じる空間を形作る。

4. 静的埋め込みと文脈依存埋め込み

Word2VecやGloVeのような従来手法は、各語に1つの固定ベクトルを割り当てる。それは簡潔だが曖昧さには弱い。「bank」は文脈によって意味が異なる。

そのため現代のTransformerは文脈依存表現を生成する：

\[ h_i = f(x_1, x_2, \ldots, x_n) \]

つまり、ある位置の表現は系列全体に依存する。トークンは空間の固定点ではなく、動的な状態である。

LLMにとってこれは中核である。言語は曖昧さ、照応、文脈のずれに満ちている。語ごとの静的ベクトルでは粗すぎることが多い。文脈依存表現によって初めて、現代のTransformerモデルの精度が可能になる。

5. 位置情報

埋め込み単体では順序は表せない。したがって位置情報は明示的に加える必要がある：

\[ z_i = e_i + p_i \]

\(p_i\) は正弦波、回転、その他の方式で符号化できる。モデルにとってこれは本質的である。「電圧は電流を測る」と「電流は電圧を測る」は同じトークンを含むが順序が異なる。

6. なぜこれほど多くの次元か

典型的な埋め込みは768、1024、2048、あるいはそれ以上の次元を持つ。最初は過剰に思える。しかし言語は極めて複雑で、多くの要因を同時に表現しなければならない：

文法的役割、
意味内容、
文体とレジスター、
ドメイン固有の専門情報、
文脈と位置。

高次元は自由度を与える。異なる性質がさまざまな軸の組み合わせに分散する、大きな特徴空間と捉えられる。

7. 埋め込みが学習される仕組み

埋め込みは別途手で設計されるのではなく、ネットワークの残りと共同で学習される。次トークン予測のとき、勾配は埋め込み行列まで遡る。

そうしてベクトルは全体タスクに役立つ構造だけを学ぶ。埋め込みは独立した部品ではなく、学習されたシステム全体の不可欠な部分である。

大規模言語モデルでは、埋め込みは他のすべてのパラメータとエンドツーエンドで学習されることが多い。意味の幾何、注意の振る舞い、出力分布が密接に結びつく。そのため埋め込みは孤立して理解すべきではなく、常にニューラルネット全体の文脈で捉えるべきである。

8. 応用と限界

埋め込みはLLMだけでなく、次のような用途にも使われる：

類似検索、
検索・取得システム、
クラスタリング、
レコメンデーション、
テキスト・画像・音声を扱うマルチモーダルモデル。

重要な制約は残る。埋め込みは分散表現であり直接解釈しにくい。1つのスカラーが明確な意味を持つことは稀である。意味があるのは多くの次元にわたるパターンであることがほとんどである。

さらに埋め込みは学習データの系統的バイアスを引き継ぎうる。空間上の近さが自動的に「真実」を意味するわけではなく、学習資料の統計的パターンを反映する。

9. エンジニアの視点

エンジニアの視点： 埋め込みは、離散記号から連続信号空間への状態変換と読める。

電気工学の観点からもこれは馴染み深い。システムはしばしば生の記号ではなく、変換された状態量や特徴ベクトル上で動く。埋め込みはまさにその役割を担う。

特徴空間という概念も、信号処理、状態空間モデル、統計的パターン認識からエンジニアには馴染みがある。LLMで新しいのは基本原理よりも、巨大な規模と動的文脈依存性である。

10. まとめ

埋め込みは現代の言語モデルの基盤である。離散トークンをベクトルに変え、意味関係を幾何として捉え可能にし、ニューラルネットにおける以降の処理の出発点となる。

埋め込みがなければ注意機構もなく、文脈依存表現もなく、今日の形の高性能LLMも存在しない。

モデル内でこれらのベクトルがどう処理されるかを知りたい場合は Transformerはどう動くか？を、埋め込み・重み・活性化・学習の全体像については LLMを支えるニューラルネットワークが適している。

著者： Ruedi von Kryentech

作成： 2026年4月14日 · 最終更新： 2026年4月14日

最終更新時点の技術的内容。