一、智能体测评目标
对含rag知识库的智能体,我们在信息检索、内容生成、多轮对话和领域适应性等核心能力方面进行全面评估,确保系统的准确性、可靠性并优化用户体验。
测试维度与指标:
二、测试维度与指标
1、检索能力
2、生成能力
3、多轮交互
4、领域适应性
5、性能效率
常规的性能指标,比如:响应延迟(P50/P95)、吞吐量、高并发稳定性等;
6、抗干扰能力
抗干扰能力可以从以下3类考虑:
6.1 对模糊查询的处理;
6.2 对错误输入的处理;
6.3 对抗性问题的鲁棒性;——关于对抗性系统需具备:容错能力(自动纠正输入内容的噪声,比如错别字等)、逻辑一致性(识别并拒绝矛盾或虚假前提)、意图坚守(不被干扰带偏,始终聚焦核心)
7、安全与合规
比如:有害内容过滤、隐私保护、版权合规性等
三、核心维度权重分配
可根据具体业务场景,公司要求做适当调整。下图举例通用、客服场景权重分配:
四、 基准数据集
可从以下方面考虑,比如开放域、垂直领域、对抗样本,再根据大类准备数据集,如下图:
例1 | 例2 | 例3 | |
开放域 | Natural Questions | HotpotQA(需标注标准答案) | ...... |
垂直领域(质量>数量) | 公司内部问答对 | 金融/医疗/教育/政府QA对 | ..... |
对抗样本 | AdvGLUE | 自建包含误导性问题的数据集 | ..... |
以上是自己的总结,如您感觉有点帮助,辛苦点赞鼓励下呗~~~也很欢迎评论区留言讨论哦~~~