信息检索和文本生成相关学习

信息检索(IR)

传统方法

BM25 (Best Matching 25)

image.png

TF(Term Frequency)

词频,就是query中每个词,在这个文档中出现的频率,就是一个简单的统计。
如果一篇文档中 ,它这个词汇匹配率,与这个查询的词汇匹配率越高的话,就可以认为这篇文档与这个查询的相关程度越高。

IDF(Inverse Document Frequency)

你文档频率,用于评估查询中一个词汇在所有文档中常见或者稀有程度,比如一根词在所有文档中都很常见,它的IDF打分反而会很低。如果IDF分数高的话,反向说明这个查询词,可以它包含的信息比较大,也更重要。

传统IR存在的问题

1、词汇失配

我们会用不同的词汇表达相同的意思。
image.png

2、语义失配

即文档跟我们查询之间即使存在很高的词汇匹配率,但描述的含义却完全不一样。
image.png

Neural IR

使用神经网络,将用户的查询和文档库中的文档投射到同一个向量空间,然后再去预测两则相关性的分数,从而避免了传统IR中词汇失配合语义失配的问题。

基于大模型的IR架构

image.png

Cross-Encoder

通常会在re-ranking的阶段采

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值