
AI
文章平均质量分 95
软件质量保障
通信硕士,拥有3项国家发明专利。前字节跳动测试工程师,现就职于蚂蚁集团,工作重点为微服务测试、接口测试平台研发等
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
2024年十大人工智能测试工具
所寫即所思|一个阿里质量人对测试的所感所悟。原创 2024-07-04 07:00:00 · 3798 阅读 · 2 评论 -
万字解读LLM大模型评估
我在之前的一篇文章中对摘要度量进行了深入的讨论,因此我强烈建议大家阅读一下。与原文内容完全一致。包含了原文中的重要信息。使用QAG,我们可以计算出事实对齐度和包含度评分,从而计算出最终的摘要评分。在DeepEval中,我们将两个中间评分中的最小值作为最终的摘要评分。""""""坦白地说,我对“摘要度量”这一概念的阐述还不够充分,因为我不想让这篇文章变得更长。但是对于那些对此感兴趣的人,我强烈建议阅读这篇文章,以了解更多关于使用QAG构建自己的摘要度量方法的信息。原创 2024-06-19 07:15:00 · 1778 阅读 · 0 评论 -
聊聊大火的AI agent
AI Agent(智能体)是一种能够感知环境、进行决策和执行动作的智能实体。不同于传统的人工智能,AI Agent 具备通过独立思考、调用工具去逐步完成给定目标的能力。AI Agent 和大模型的区别在于,大模型与人类之间的交互是基于prompt 实现的,用户prompt 是否清晰明确会影响大模型回答的效果。而AI Agent的工作仅需给定一个目标,它就能够针对目标独立思考并做出行动。原创 2024-06-14 09:17:08 · 1046 阅读 · 0 评论