向量模型(Embedding Models)最新发展介绍

以下是对**向量模型(Embedding Models)**的系统介绍,涵盖核心概念、技术演进、应用场景及主流工具,结合最新进展(2025年)整理:
在这里插入图片描述


一、向量模型本质:信息的稠密向量表示

核心目标

非结构化数据(文本、图像、音频等)转化为低维稠密向量(通常128-1536维),使得:

  • 语义相似的输入 → 向量空间距离相近(如余弦相似度高)
  • 语义不同的输入 → 向量空间距离远
数学表达

Embedding Model f: Raw Data →Rd \text{Embedding Model } f: \text{ Raw Data } \rightarrow \mathbb{R}^d Embedding Model f: Raw Data Rd

  • ddd:向量维度(如384、768、1024等)
  • 相似度计算:cos(θ)=A⋅B∥A∥∥B∥\text{cos}(\theta) = \frac{\mathbf{A} \cdot \mathbf{B}}{\|\mathbf{A}\| \|\mathbf{B}\|}cos(θ)=A∥∥BAB

二、技术演进:从静态到动态建模

1. 静态词向量(2013-2018)
  • 代表模型:Word2Vec、GloVe
  • 特点
    • 每个词对应固定向量(无法处理多义词)
    • 词级相似度计算(如 king - man + woman = queen
  • 局限:忽略上下文,无法建模句子
2. 上下文感知向量(2018-2022)
  • 代表模型:BERT、ELMo
  • 突破
    • 同一词在不同语境中向量不同(如 bank 在金融/河岸场景)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值