エンベディング
えんべでぃんぐ
Embedding
類語・同義語: ベクトル化、埋め込み表現、分散表現
エンベディング(埋め込み)とは、自然言語処理などの分野において、単語や文章などの「意味」を、コンピュータが計算可能な「数値のベクトル(多次元の数値配列)」に変換する技術のこと。これにより、「王様」-「男」+「女」=「女王」のような意味的な計算が可能になる。現在のLLM(大規模言語モデル)や検索システム(ベクトル検索)において、言葉の意味的類似性を判断するための核心的な技術となっている。
最終更新: 2026/1/23
エンベディングの役割
コンピュータは本来、「りんご」と「アップル」が似ている言葉であることを理解できません。これらを単なる文字列としてではなく、**意味空間上の座標(ベクトル)**として表現することで、言葉の距離(近さ)を計算できるようにします。
- 意味空間: 多次元の空間(例えば1536次元)。意味の近い言葉は、この空間内で近くに配置される。
- 類似度検索: ユーザーの質問(クエリ)とドキュメントをそれぞれベクトル化し、距離が近いものを探すことで、キーワードが一致していなくても、意味的に関連する情報を検索できる(セマンティック検索)。
代表的なモデル
- Word2Vec: 単語単位のエンベディングの先駆け。
- BERT: 文脈を考慮したエンベディングが可能。
- OpenAI text-embedding-3: 高性能かつコスト効率の良い最新のエンベディングモデル。
由来・語源
Embed(埋め込む)ことから。
使用例
RAGシステムを構築するために、社内ドキュメントをエンベディングしてベクトルデータベースに保存する。
関連用語
- 同義語: ベクトル化, 埋め込み表現, 分散表現
- 関連: ベクトルデータベース, RAG, Word2Vec, コサイン類似度