以下是对**向量模型(Embedding Models)**的系统介绍,涵盖核心概念、技术演进、应用场景及主流工具,结合最新进展(2025年)整理:
一、向量模型本质:信息的稠密向量表示
核心目标
将非结构化数据(文本、图像、音频等)转化为低维稠密向量(通常128-1536维),使得:
- 语义相似的输入 → 向量空间距离相近(如余弦相似度高)
- 语义不同的输入 → 向量空间距离远
数学表达
Embedding Model f: Raw Data →Rd \text{Embedding Model } f: \text{ Raw Data } \rightarrow \mathbb{R}^d Embedding Model f: Raw Data →Rd
- ddd:向量维度(如384、768、1024等)
- 相似度计算:cos(θ)=A⋅B∥A∥∥B∥\text{cos}(\theta) = \frac{\mathbf{A} \cdot \mathbf{B}}{\|\mathbf{A}\| \|\mathbf{B}\|}cos(θ)=∥A∥∥B∥A⋅B
二、技术演进:从静态到动态建模
1. 静态词向量(2013-2018)
- 代表模型:Word2Vec、GloVe
- 特点:
- 每个词对应固定向量(无法处理多义词)
- 词级相似度计算(如
king - man + woman = queen
)
- 局限:忽略上下文,无法建模句子
2. 上下文感知向量(2018-2022)
- 代表模型:BERT、ELMo
- 突破:
- 同一词在不同语境中向量不同(如
bank
在金融/河岸场景)
- 同一词在不同语境中向量不同(如