【论文泛读63】弱监督的开放域问答中的潜在检索(ORQA-开放检索问答)

该论文提出了一种新的开放域问答(ORQA)方法,通过弱监督学习同时训练检索器和阅读器,无需依赖IR系统或黄金证据。通过反隐式任务预训练检索器,ORQA在五个开放版数据集上表现良好,尤其在问题反映信息需求时,学习检索至关重要。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

贴一下汇总贴:论文阅读记录

论文链接:《Latent Retrieval for Weakly Supervised Open Domain Question Answering》

一、摘要

关于开放域问答(QA)的最新工作假设对支持证据的严格监督和/或假设使用黑匣子信息检索(IR)系统来检索候选证据。我们认为两者都不是最优的,因为并非总是有黄金证据,而且质量保证与IR根本不同。我们首次展示了可以从问题答案字符串对中共同学习检索者和阅读者,而无需任何IR系统的情况。在这种情况下,将从所有Wikipedia检索的证据视为潜在变量。由于从头开始学习是不切实际的,因此我们使用反隐式任务对检索器进行了预训练。我们评估了五个质量检查数据集的开放版本。在提问者已经知道答案的数据集上,使用传统的IR系统(例如BM25)就足够了。

二、结论

我们提出了ORQA,这是第一个开放领域的问题回答系统,在这个系统中,检索者和读者只使用问答对进行端到端的联合学习,而没有任何IR系统。这可以通过使用反完形填空任务对检索者进行预训练来实现。实验表明,当问题反映信息需求时,即问题作者还不知道答案时,学习检索是至关重要的。

三、model

ORQA的模型概述:检索器和阅读器组件是共同学习的,我们称之为开放检索问答(ORQA)模型。ORQA的一个重要方面是它的可表达性——它能够在开放的语料库中检索任何文本,而不是局限于黑盒红外系统返回的封闭集。
在这里插入图片描述

使用弱监督会产生虚假歧义:
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值