SentenceTransformers 之重复问题预测

背景

基于Python库,SentenceTransformers,实现重复问题预测任务。

SentenceTransformers Documentation :https://www.sbert.net/index.html

重复问题预测

可以使用的预训练模型

SentenceTransformers库可以选用的预训练模型:

  1. distilbert-base-nli-stsb-quora-ranking:
  2. distilbert-multilingual-nli-stsb-quora-ranking:将上述模型扩展为多语言模型,目前支持50种语言,包括中文。
  3. 另外,SentenceTransformers也可以支持使用本地模型,例如bert_base_chinese模型等等。

预训练模型的使用方法

from sentence_transformers import SentenceTransformer
model = SentenceTransformer('model_name')

数据集

我们可以使用Quora 重复问题数据集,对模型进行精调。
数据集如下所示:

id	qid1	qid2	question1	question2	is_duplicate
0	1	2	What is the step by step guide to invest in share market in india?	What is the step by step guide to invest in share market?	0
1	3	4	What is the story of Kohinoor (Koh-i-Noor) Diamond?	What would happen if the Indian government stole the Kohinoor (Koh-i-Noor) diamond back?	0

使用方法

重复问题挖掘

给定一个句子集合(在该场景下是所有的问题集合),识别其中所有的相似句子。例子详见:Paraphrase Mining,该例子使用暴力搜索的方法,枚举所有的句子对,并对该句子对是否为相似句子进行分类。
扩展性一般,适用于几万个句子的场景。

语义检索

该模型也可以用于信息召回/语义检索的场景。给定一个问题,我们在数十万语料库中检索相似的问题。假设你有足够的内存或者显存,该方法可以扩展到数百万的语料库的场景中。

模型训练

为了获得质量较好的句子向量,选择合适的损失函数是比较重要的。对于重复问题识别任务,有两个损失函数比较合适:对比损失函数(ContrasiveLoss)和多负样本排序损失函数(MultipleNegativesRankingLoss)。

对比损失函数 ContrasiveLoss

对比损失函数适用于label为0,1的数据。在原始数据集中,label=0代表不重复的数据,label=1代表重复的数据。在这种情况下,就可以对比损失函数:标签为1的相似问题样本的向量表示被拉近、标签为0的不相似问题样本的向量表示被推远。
定义
l o s s = Y ( s i m ( x i − x j ) ) + ( 1 − Y ) m a x ( 0 , θ − s i m ( x i − x j ) ) loss = Y(sim(x_i-x_j))+(1-Y)max(0,\theta-sim(x_i-x_j)) loss=Y(sim(xixj))+(1Y)max(0,θsim(xixj))
其中的Y表示如果句子 x i x_i xi x j x_j xj为相似句,则Y=1。 θ \theta θ表示间隔参数,表示不相似句子的相似度上限。 s i m ( x i , x j ) sim(x_i,x_j) sim(xi,xj)表示两个句子的相似度,可以有不同的定义方式,例如定义为范式的形式,则对比损失函数为:
l o s s = Y ( ∣ ∣ x i − x j ∣ ∣ 2 ) + ( 1 − Y ) m a x ( 0 , θ − ∣ ∣ x i − x j ∣ ∣ 2 ) loss = Y(||x_i-x_j||^2)+(1-Y)max(0,\theta-||x_i-x_j||^2) loss=Y(∣∣xixj2)+(1Y)max(0,θ∣∣xixj2)
其中,选择合适的距离计算函数和间隔对于对比损失来说是非常重要的。
改进版本
对比损失的一个改进版本为在线对比损失(OnlineContrasiveLoss)。该损失函数寻找一个batch中的困难样本(negative pairs have a lower distance that the largest positive pair and which positive pairs have a higher distance than the lowest distance of negative pairs),并只计算困难样本的损失函数。

完整的代码见, training_OnlineContrastiveLoss.py

多负样本排序损失函数MultiNegativeRankingLoss

该损失函数比较适合于语义检索和信息召回任务。优点在于不需要构造负样本,因为该损失函数会将一个batch中的所有非正样本作为负样本,在最终结果的概率分布上,正样本的概率高于其他负样本。

多任务学习

可以在一个任务中同时计算对比损失和多负样本排序损失函数,然后优化模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值