含Rag知识库智能体测评方案总结举例

一、智能体测评目标

对含rag知识库的智能体,我们在信息检索、内容生成、多轮对话和领域适应性等核心能力方面进行全面评估,确保系统的准确性、可靠性并优化用户体验。

测试维度与指标:

二、测试维度与指标

 1、检索能力

 2、生成能力

3、多轮交互

4、领域适应性

    

5、性能效率

常规的性能指标,比如:响应延迟(P50/P95)、吞吐量、高并发稳定性等;

6、抗干扰能力

抗干扰能力可以从以下3类考虑:

6.1 对模糊查询的处理;

6.2 对错误输入的处理;

6.3 对抗性问题的鲁棒性;——关于对抗性系统需具备:容错能力(自动纠正输入内容的噪声,比如错别字等)、逻辑一致性(识别并拒绝矛盾或虚假前提)、意图坚守(不被干扰带偏,始终聚焦核心)           

7、安全与合规

比如:有害内容过滤、隐私保护、版权合规性等

三、核心维度权重分配

可根据具体业务场景,公司要求做适当调整。下图举例通用、客服场景权重分配:

四、 基准数据集

可从以下方面考虑,比如开放域、垂直领域、对抗样本,再根据大类准备数据集,如下图:

例1例2例3
开放域Natural QuestionsHotpotQA(需标注标准答案)......
垂直领域(质量>数量)公司内部问答对金融/医疗/教育/政府QA对.....
对抗样本AdvGLUE自建包含误导性问题的数据集.....

以上是自己的总结,如您感觉有点帮助,辛苦点赞鼓励下呗~~~也很欢迎评论区留言讨论哦~~~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值