【AGI-Eval实测速报】Qwen3 四大维度开箱评测,模型实测效果大放送!

4月29日凌晨,阿里巴巴正式开源新一代通义千问模型 Qwen3,多项能力达到或者超过了当前的主流模型,那么 Qwen3 的实测情况究竟是怎么样的?我们从创作、分析力、操作力和问答四个方向进行了任务实测,Qwen3 的 Agent 能力相对前代模型得到了很大提升,但也存在数据滞后、模型幻觉等问题,一起来看下这些有趣的case测试吧!

Image

目录

1. Qwen 3 介绍

2. Qwen 3 实测案例

   2.1 评测核心结论

   2.2 策划类任务实测

   2.3 分析任务实测

   2.4 操作任务实测

   2.5 问答任务实测

1.Qwen 3 介绍

昨日阿里正式开源 Qwen3 系列模型,包含2个 MoE 模型、6个稠密模型,其中的 Qwen3-235B-A22B 模型在编程、数学、通用能力等基准评估中的表现超过了 DeepSeek-R1、OpenAI o1、OpenAI o3-mini、Grok-3 和 Gemini-2.5-Pro 等模型,在 AIME25 测评中,Qwen3 斩获 81.5 分,刷新开源纪录。

Image

Qwen 3 亮点如下:

支持混合思考模式来解决问题:将「分析研究」功能加入到模型功能中,可根据任务需求控制模型进行的“思考”程度(类似于Claude 3-7 Sonnet);

多个模型版本同时发布:包含 2 款 30B、235B 的 MoE 模型,以及 0.6B、1.7B、4B、8B、14B、32B 等 6 款密集模型,同时均斩获同尺寸开源模型 SOTA,能够满足不同需求;

用户兼容性强大Qwen 3 模型支持119种语言和方言,同时原生支持 MCP 协议,并具备强大的工具调用(function calling)能力;

项目地址:

HuggingFace:

https://huggingface.co/Qwen/Qwen3-235B-A22B

魔搭社区:

https://modelscope.cn/models/Qwen/Qwen3-235B-A22B

Qwen Chat:https://chat.qwen.ai

2.Qwen 3 实测

2.1评测核心结论

策划类任务,Qwen3 实测未能生成PDF文件和参考图片,完整性有待提升;在设计美观等方面的有效性有待增强;存在一些幻觉内容(如航班、酒店信息和价格不存在)容易误导用户,真实性不算很高,但一致性较高;

分析类任务,Qwen3 的信息搜集能力较强,但未能给用户具体建议,完整性有待提升;数据的时效性滞后,建议不细致,实际的有效性还有很大提升空间;在一致性方面表现较好,但有少量幻觉;

操作类任务,Qwen3 能够完成简单的任务指令(如信息收集整理),不能完成较为复杂的指令,同时缺少生活经验,计划的落地性较低,因此只能为用户解决基础的问题,在一致性方面表现较好,由于信息掌握不够全面(如五一假期酒店价格上涨),信息并不准确;

问答类任务,Qwen3 基于现实出发,会理性综合的分析问题,产出的结果是符合事实规律的,在一致性和真实性两方面表现较好。

在本次评测报告中,我们测试 Qwen 3的亮点——「分析研究」模式 ,「分析研究」模式下耗时较长,实测中每个的 case 耗时在2分钟-20分钟不等

Image

主要对「分析研究」的创作、分析、操作、问答四个能力进行评测,下面我们来看实测的具体案例。

2.2 策划类任务实测
case1 旅行计划

prompt:我想五一期间从上海出发两个人去马尔代夫度假,但时间和预算都有限,最多节后请一天假,最好不请假,机票酒店餐饮加起来总预算控制在1万元以内。需要给出具体的航班号、出发时间和到达时间。最后结果整理成一个文档。

Image

这个 case 旨在测试 Qwen3 的规划能力,测试它是否可以满足用户的生活情景需求。生成的旅行攻略基本满足用户需求。可以作为大致参考,需要借助 App去验证。经验证模型的回答存在幻觉:航班、酒店信息和价格不存在,没有考虑到实际因素,五一节假日期间是机酒价格高峰,只是按照要求'1万元以内'做出的计划,但与实际航班信息不相符,价格信息也不准确,一趟从上海飞往马尔代夫马累市的机票价格就在2600~11200元之间,只是围绕要求的合理性,由于临期价格出现较大波动,而未参考实际性,存在模型幻觉。对 P人比较友好,可以节省一些时间去做list;但对于 J 人来说,它只是个参考,每一项内容都需要核对,并进行个性化调整。

生成的旅行计划如下:

Image

Image

Image

五一假期是五天,在5.3日就制定返程计划,不满足用户需求,同时航班信息和价格也不真实。

case2 生日祝福网页开发

prompt:我女朋友的生日是5月21日,帮我制作一个浪漫高级的生日祝福网页,采用粉色和紫色为主。

Image

生成的代码页面效果如下:

Image

这个 case旨在测试 Qwen3 的编程设计能力,基本实现了用户要求内容专业、细节丰富,略需补充工程化细节。视图配置均符合官方文档规范,无虚构 API,但在设计方面美观程度不足,只能满足基本信息要素,粒子动画实现方式描述不一致,性能提示缺失,未说明对老旧浏览器(如 IE)的支持方案。

case3 制作文艺片拍摄教程

prompt:我是一名摄影爱好者,想拍一些很文艺的大片,奈何不会选角度调参数,对光线也不了解,请教我如何拍摄文艺片,帮我生成一个pdf教程,并且配上你生成的图供我学习参考。

Image

这个 case 旨在测试 Qwen3 的通用能力,未能完全覆盖用户需求,未提及手机摄影的适配建议,缺少 “从主题构思到成片” 的完整案例拆解,没有按照“生成 PDF 文件并提供参考图片”的要求输出内容。但额外补充了 实用技巧、创意表达、常见误区 等扩展内容,形成从前期准备到后期输出的完整闭环。

策划类任务实测小结:

完整性:case1和case2基本实现了用户要求;case3未能完全实现用户要求,但有额外输出。

一致性:产出旅行攻略、祝福网页、摄影教程的上下文内容一致;

有效性:对于P人用户,其生成的旅行攻略可以在一定程度上帮助解决问题;Qwen3 生成的网页祝福在设计方面美观程度不足,对于用户而言,不具备实用性;拍摄教程缺少 “从主题构思到成片” 的完整案例拆解,有效性有待增强;

真实性:三个结case产出结果都符合事实。

3.2 分析类任务实测
case1 调研字节在 AI agent 领域的动向

prompt:调研字节在AI agent领域,请帮我梳理一下近3个月来,字节跳动在AI agent领域的产品发展与动向

Image

这个 case旨在测试 Qwen3 对市场热点信息的捕捉和收集能力,Qwen3 的回答覆盖了核心战略与技术细节可以完成完整的信息搜集工作。它梳理出了字节跳动近3个月在 AI Agent 领域的产品发展与动向,包括其核心产品发布、技术升级、应用场景拓展以及市场策略调整等方面,产出结果的上下文内容一致,数据符合事实。

case2 通用 Agent 调研

prompt:帮我调研一下 manus、openmanus、owl 等通用 Agent 的实现方案,呈现一个比较详细的技术设计方案给我,不需要代码部分

Image

这个 case旨在测试 Qwen3 的横向对比能力,Qwen3 的回答满足了用户的核心诉求它能自动生成表格对比,相对直观清晰,产出的结果上下文内容一致,数据也符合事实,能够展示出Manus、OpenManus和OWL各自的特征和优势从技术分析到整合方案,再到商业化路径,形成完整逻辑链条。但在财务数据方面略有不足,Manus 的商业化收入、OpenManus 的用户增长等量化指标未披露。

case3 京东美团饿了么分析与投资建议

prompt:京东美团饿了么分析与投资建议,结合热点和业务模式,从投资角度去分析后给出投资建议,做短线还是长线,盈利能力如何

Image

这个 case 旨在测试 Qwen3 的专业数据分析能力。细节略有缺失,只能满足用户基本的需求。从数据上看,时效性滞后,为23年的数据,且丢失饿了么数据项,缺乏风险率投资回报率、市盈率等有效数据。从内容上看,缺乏细化估值模型,未说明 PE/PB 估值的行业对比,专业性有待提升;投资建议不细致,没有给出在什么区间适合交易,不具备实际参考性。

分析类任务实测小结:

完整性:在case1和2中,完成了完整的信息搜集工作,生成了相对直观清晰的表格对比,能很好地实现用户要求;在case3中,数据时效性滞后,投资建议不细致,只能满足用户的基本需求。

一致性:在3个case中,产出的报告上下文内容一致;

有效性:case1 梳理了字节跳动近3个月在 AI Agent 领域的产品发展与动向;case2 展示出Manus、OpenManus和OWL各自的特征和优势,都具备高度有效性;case3 数据时效性滞后,投资建议不细致,不太具备实际参考性,有效性有待增强;

真实性:3个case产出结果都符合事实。

3.3 操作类任务实测
case1  制作PPT方案

prompt:我想用20w进行理财,我能承受的风险属于低风险,我的目标是:最低要求是保本,一个月最好能获得1000-2000元的收益;投资理财的产品最好不要超过三个,避免资金太散。需要三个方案,以便我自己作对比,最好以PPT的形式呈现给我

可以看到,Qwen 3 还有一个单独的“PPT制作”功能,如果我们需要做一个具有深度的PPT,我们有两种方式:
①直接点击【PPT创作】;

②先【分析研究】再【PPT创作】;

我们一起来看下步骤不同做出来的PPT效果有何差异。

方案一:直接【PPT创作】

Image

我的需求是3个低风险的理财方案,给到了初始资金“20w、目标收益1000元”等明细数字,Qwen 3 花费了1 分钟做了一个 PPT 大纲,可以修改和调整,但大纲中并没有给到用户的详细理财建议,随后点击末尾的【PPT创作】(这里点击后一直显示未就绪状态,强烈吐槽,需要优化!)

虽然可以选择多种PPT样式,但最后的PPT成品里面只有一些大而全的简单建议,可参考性几乎为 0,并未能理解用户需求,有效性较低。

方案二:先【分析研究】,再【PPT制作】

【分析研究】

为了得到详细的投资建议,我们先进行分析研究,这次 Qwen 3 真的走心了,调用了多个网页内容,查阅了很多资料,认真的撰写研究报告

Image

【PPT 制作】但是这个报告并不能直接生成 PPT,需要我们将 Qwen 3 给到的内容保存到文档,再将文档进行上传,我们再来看看此时PPT效果

Image

在PPT最后生成的时段,仅有文档中关于理财产品的介绍,文档中的表格、收益分析、投资建议等都没有,后面10多页的 PPT 内容都在“无中生有”。

这是一个测试 Qwen 3 的数据分析推理及 PPT 制作综合能力的 case,我们使用“分析研究”功能时,能够得到想要的分析结果,但是在 PPT 制作方向,Qwen 3 并不能满足需求,无法按照文档生成 PPT,不具备实际参考性。

case2  游玩路线规划

接下来再来看看 Qwen 3 的路线规划能力如何,这次给它给我们规划五一的出行路线。

prompt:我五一要从成都出发,计划去上海、湖南凤凰古城、广州三个地方游玩,给我推荐最经济实惠的详细游玩出行路线,并做好每天游玩规划,我需要去到每个地方的打卡点并吃到美食,共计5天,给我一个详细的出行计划。

Image

这个case 测试是 Qwen 3  的规划能力,需要基于设定的三个目标点做路线规划和游玩规划,最关键的是要在时间和费用上做一个平衡。

Qwen 3 这次的行程看似安排合理,包含我们的所有需要,但是 Qwen 3 第一天规划成都到上海的路径居然是动车,这趟动车可是需要坐12个小时!!!

真要这样出行,那真的是后面几天都没办法玩了!同时 Qwen 3 并未规划第五天回成都的路线,在未回成都的前提下,本次行程规划的交通费用约2406元、住宿费用约634元、餐饮费用约400元、景点门票约328元,共计约3768元,但是上海海友酒店在五一期间的价格为450元/晚左右,因此给到的242元/晚并不可靠。

Image

如果 Qwen 3 这里将成都出行换成飞机,广州就有多玩一天的时间,那么这个行程就还不错,因此 Qwen 3 给的这个规划还是具备一定的参考性。

case3  游玩穿搭规划

prompt:我五一要去上海迪士尼游玩,给我推荐几套适合拍照出片的女装套装,不要平台搭配的套装,我要你来给我搭配衣服,你要给我看搭配效果图,并且把对应的购买链接发给我。

Image

这个case 测试的是 Qwen 3  另一种规划能力,需要 Qwen 3 进行联网搜索商品,根据网上现有的穿搭攻略整理出适合迪士尼拍照打卡的穿搭,Qwen 3 在思考过程中搜索了很多穿搭攻略及商品,并在最后的结论中给到了多种场景下的穿搭建议。

Image

但是给到是商品信息没有附带购买链接,也没有穿搭的图片效果,并没有完全按照要求执行,同时也发现有幻觉存在,比如太平鸟并未出米妮联名款衣服,但整体还是具有一定参考性,能够帮助我们完成 一定的穿搭攻略。

Image

操作类任务实测小结:

完整性:Qwen 3 整体的完成度较高,但会有部分指令缺失,并未能理解用户需求,有效性较低;
一致性Qwen 3 的一致性较高,产出结果的上下文内容一致,完成度较高;
有效性:Qwen 3 能够可以帮助用户解决大部分的问题,但不能直接给到PPT、效果图等内容;
真实性:Qwen 3 是基于联网搜索再做分析推理,但是由于缺少生活经验,给到的数据有一定的差距,真实性并不能达到很高。

3.4 问答类任务实测
case1 电车难题

prompt:无人驾驶汽车在紧急情况下必须选择撞向行人或牺牲乘客,其算法应如何权衡生命价值?请从伦理学和法律角度探讨这一“电车难题”的现代版。

Image

当我们把这个“电车难题”给到 Qwen 3  ,它经过思考后,给了一篇理性的分析问答, 深入探讨了集体决策(MES)与个人选择(PES)的问题,同时又从法律和伦理算法方向继续探讨如何权衡生命价值。最后还做了引申,希望提升无人驾驶汽车驾驶技术,改进传感器技术,从根本上解决问题,这一波理性分析可以给到满分!

case2 人类价值探讨

prompt:如果宇宙终将热寂,人类文明的存在是否有永恒价值?

Image

这个case主要是在测试 Qwen3 在人文价值方面的思辨能力,Qwen 3 的回答实现了较高的跨学科覆盖,核心议题无遗漏从热力学第二定律的科学溯源,到存在主义、过程哲学、东方智慧的多维度阐释,最后落实到可操作的实践方案,形成 “问题 - 理论 - 应用” 的完整闭环,无逻辑断层或话题偏离,可以满足深度哲学探讨需求,但哲学讨论深度较高,可能超出普通读者的知识储备,需简化核心观点以增强普及性。

在伦理学维度, Qwen3 的回答缺失,未深入探讨热寂背景下的伦理重构(如资源分配、代际公平),仅在科技伦理部分略有提及。

问答类任务实测小结:

创作能力上,Qwen3 实测未能生成PDF文件和参考图片,完整性有待提升;在设计美观等方面的有效性有待增强;存在一些幻觉内容(如航班、酒店信息和价格不存在)容易误导用户,真实性不算很高,但一致性较高;

在分析能力上,Qwen3 的信息搜集能力较强,但未能给用户具体建议,完整性有待提升;数据的时效性滞后,建议不细致,实际的有效性还有很大提升空间;在一致性方面表现较好,但有少量幻觉;

在操作能力上,Qwen3 能够完成简单的任务指令(如信息收集整理),不能完成较为复杂的指令,同时缺少生活经验,计划的落地性较低,因此只能为用户解决基础的问题,在一致性方面表现较好,由于信息掌握不够全面(如五一假期酒店价格上涨),信息并不准确;

在问答能力上,Qwen3 在基于现实出发,会理性综合的分析问题,产出的结果是符合事实规律的,在一致性和真实性两方面表现较好。

以上就是本次的评测内容,我们AGI-Eval 大模型评测社区持续关注现在大模型行业的发展,持续探寻 AGI 的发展之路。后续我们也将第一时间为大家评测更多模型,期待更多人加入我们。

最后,如果你也喜欢这篇文章,那就点赞转发收藏吧~下一期继续为你带来大模型最新资讯&评测&榜单信息记得关注我们!

AGI-Eval大模型评测
AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区,旨在打造公正、可信、科学、全面的评测生态以“评测助力,让AI成为人类更好的伙伴"为使命。
14篇原创内容

往期回顾

1.【AGI-Eval评测报告 NO.1】DeepSeek 三大类型模型全面评测,通用及推理模型实现领跑,多模态位于第三梯队

2.【AGI-Eval评测报告 NO.2】DeepSeek V3-0324抢先评测!最全报告输出

3.【AGI-Eval评测报告 NO.3】第一手实测GPT-4o文生图能力!最权威报告输出

同时文末也期待大家参与我们社群,一起探寻 AGI 的更多可能性发现更多不一样的视角,提出问题才有机会解决问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值