4月29日凌晨,阿里巴巴正式开源新一代通义千问模型 Qwen3,多项能力达到或者超过了当前的主流模型,那么 Qwen3 的实测情况究竟是怎么样的?我们从创作、分析力、操作力和问答四个方向进行了任务实测,Qwen3 的 Agent 能力相对前代模型得到了很大提升,但也存在数据滞后、模型幻觉等问题,一起来看下这些有趣的case测试吧!
目录
1. Qwen 3 介绍
2. Qwen 3 实测案例
2.1 评测核心结论
2.2 策划类任务实测
2.3 分析类任务实测
2.4 操作类任务实测
2.5 问答类任务实测
1.Qwen 3 介绍
昨日阿里正式开源 Qwen3 系列模型,包含2个 MoE 模型、6个稠密模型,其中的 Qwen3-235B-A22B 模型在编程、数学、通用能力等基准评估中的表现超过了 DeepSeek-R1、OpenAI o1、OpenAI o3-mini、Grok-3 和 Gemini-2.5-Pro 等模型,在 AIME25 测评中,Qwen3 斩获 81.5 分,刷新开源纪录。
Qwen 3 亮点如下:
支持混合思考模式来解决问题:将「分析研究」功能加入到模型功能中,可根据任务需求控制模型进行的“思考”程度(类似于Claude 3-7 Sonnet);
多个模型版本同时发布:包含 2 款 30B、235B 的 MoE 模型,以及 0.6B、1.7B、4B、8B、14B、32B 等 6 款密集模型,同时均斩获同尺寸开源模型 SOTA,能够满足不同需求;
用户兼容性强大:Qwen 3 模型支持119种语言和方言,同时原生支持 MCP 协议,并具备强大的工具调用(function calling)能力;
项目地址:
HuggingFace:
https://huggingface.co/Qwen/Qwen3-235B-A22B
魔搭社区:
https://modelscope.cn/models/Qwen/Qwen3-235B-A22B
Qwen Chat:https://chat.qwen.ai
2.Qwen 3 实测
2.1评测核心结论
策划类任务,Qwen3 实测未能生成PDF文件和参考图片,完整性有待提升;在设计美观等方面的有效性有待增强;存在一些幻觉内容(如航班、酒店信息和价格不存在)容易误导用户,真实性不算很高,但一致性较高;
分析类任务,Qwen3 的信息搜集能力较强,但未能给用户具体建议,完整性有待提升;数据的时效性滞后,建议不细致,实际的有效性还有很大提升空间;在一致性方面表现较好,但有少量幻觉;
操作类任务,Qwen3 能够完成简单的任务指令(如信息收集整理),不能完成较为复杂的指令,同时缺少生活经验,计划的落地性较低,因此只能为用户解决基础的问题,在一致性方面表现较好,由于信息掌握不够全面(如五一假期酒店价格上涨),信息并不准确;
问答类任务,Qwen3 基于现实出发,会理性综合的分析问题,产出的结果是符合事实规律的,在一致性和真实性两方面表现较好。
在本次评测报告中,我们测试 Qwen 3的亮点——「分析研究」模式 ,「分析研究」模式下耗时较长,实测中每个的 case 耗时在2分钟-20分钟不等
主要对「分析研究」的创作、分析、操作、问答四个能力进行评测,下面我们来看实测的具体案例。
2.2 策划类任务实测
case1 旅行计划
prompt:我想五一期间从上海出发两个人去马尔代夫度假,但时间和预算都有限,最多节后请一天假,最好不请假,机票酒店餐饮加起来总预算控制在1万元以内。需要给出具体的航班号、出发时间和到达时间。最后结果整理成一个文档。
这个 case 旨在测试 Qwen3 的规划能力,测试它是否可以满足用户的生活情景需求。生成的旅行攻略基本满足用户需求。可以作为大致参考,需要借助 App去验证。经验证模型的回答存在幻觉:航班、酒店信息和价格不存在,没有考虑到实际因素,五一节假日期间是机酒价格高峰,只是按照要求'1万元以内'做出的计划,但与实际航班信息不相符,价格信息也不准确,一趟从上海飞往马尔代夫马累市的机票价格就在2600~11200元之间,只是围绕要求的合理性,由于临期价格出现较大波动,而未参考实际性,存在模型幻觉。对 P人比较友好,可以节省一些时间去做list;但对于 J 人来说,它只是个参考,每一项内容都需要核对,并进行个性化调整。
生成的旅行计划如下:
五一假期是五天,在5.3日就制定返程计划,不满足用户需求,同时航班信息和价格也不真实。
case2 生日祝福网页开发
prompt:我女朋友的生日是5月21日,帮我制作一个浪漫高级的生日祝福网页,采用粉色和紫色为主。
生成的代码页面效果如下:
这个 case旨在测试 Qwen3 的编程设计能力,基本实现了用户要求,内容专业、细节丰富,略需补充工程化细节。视图配置均符合官方文档规范,无虚构 API,但在设计方面美观程度不足,只能满足基本信息要素,粒子动画实现方式描述不一致,且性能提示缺失,未说明对老旧浏览器(如 IE)的支持方案。
case3 制作文艺片拍摄教程
prompt:我是一名摄影爱好者,想拍一些很文艺的大片,奈何不会选角度调参数,对光线也不了解,请教我如何拍摄文艺片,帮我生成一个pdf教程,并且配上你生成的图供我学习参考。
这个 case 旨在测试 Qwen3 的通用能力,未能完全覆盖用户需求,未提及手机摄影的适配建议,缺少 “从主题构思到成片” 的完整案例拆解,没有按照“生成 PDF 文件并提供参考图片”的要求输出内容。但额外补充了 实用技巧、创意表达、常见误区 等扩展内容,形成从前期准备到后期输出的完整闭环。
策划类任务实测小结:
完整性:case1和case2基本实现了用户要求;case3未能完全实现用户要求,但有额外输出。
一致性:产出旅行攻略、祝福网页、摄影教程的上下文内容一致;
有效性:对于P人用户,其生成的旅行攻略可以在一定程度上帮助解决问题;Qwen3 生成的网页祝福在设计方面美观程度不足,对于用户而言,不具备实用性;拍摄教程缺少 “从主题构思到成片” 的完整案例拆解,有效性有待增强;
真实性:三个结case产出结果都符合事实。
3.2 分析类任务实测
case1 调研字节在 AI agent 领域的动向
prompt:调研字节在AI agent领域,请帮我梳理一下近3个月来,字节跳动在AI agent领域的产品发展与动向
这个 case旨在测试 Qwen3 对市场热点信息的捕捉和收集能力,Qwen3 的回答覆盖了核心战略与技术细节,可以完成完整的信息搜集工作。它梳理出了字节跳动近3个月在 AI Agent 领域的产品发展与动向,包括其核心产品发布、技术升级、应用场景拓展以及市场策略调整等方面,产出结果的上下文内容一致,数据符合事实。
case2 通用 Agent 调研
prompt:帮我调研一下 manus、openmanus、owl 等通用 Agent 的实现方案,呈现一个比较详细的技术设计方案给我,不需要代码部分
这个 case旨在测试 Qwen3 的横向对比能力,Qwen3 的回答满足了用户的核心诉求。它能自动生成表格对比,相对直观清晰,产出的结果上下文内容一致,数据也符合事实,能够展示出Manus、OpenManus和OWL各自的特征和优势。从技术分析到整合方案,再到商业化路径,形成完整逻辑链条。但在财务数据方面略有不足,Manus 的商业化收入、OpenManus 的用户增长等量化指标未披露。
case3 京东美团饿了么分析与投资建议
prompt:京东美团饿了么分析与投资建议,结合热点和业务模式,从投资角度去分析后给出投资建议,做短线还是长线,盈利能力如何
这个 case 旨在测试 Qwen3 的专业数据分析能力。细节略有缺失,只能满足用户基本的需求。从数据上看,时效性滞后,为23年的数据,且丢失饿了么数据项,缺乏风险率投资回报率、市盈率等有效数据。从内容上看,缺乏细化估值模型,未说明 PE/PB 估值的行业对比,专业性有待提升;投资建议不细致,没有给出在什么区间适合交易,不具备实际参考性。
分析类任务实测小结:
完整性:在case1和2中,完成了完整的信息搜集工作,生成了相对直观清晰的表格对比,能很好地实现用户要求;在case3中,数据时效性滞后,投资建议不细致,只能满足用户的基本需求。
一致性:在3个case中,产出的报告上下文内容一致;
有效性:case1 梳理了字节跳动近3个月在 AI Agent 领域的产品发展与动向;case2 展示出Manus、OpenManus和OWL各自的特征和优势,都具备高度有效性;case3 数据时效性滞后,投资建议不细致,不太具备实际参考性,有效性有待增强;
真实性:3个case产出结果都符合事实。
3.3 操作类任务实测
case1 制作PPT方案
prompt:我想用20w进行理财,我能承受的风险属于低风险,我的目标是:最低要求是保本,一个月最好能获得1000-2000元的收益;投资理财的产品最好不要超过三个,避免资金太散。需要三个方案,以便我自己作对比,最好以PPT的形式呈现给我
可以看到,Qwen 3 还有一个单独的“PPT制作”功能,如果我们需要做一个具有深度的PPT,我们有两种方式:
①直接点击【PPT创作】;
②先【分析研究】再【PPT创作】;
我们一起来看下步骤不同做出来的PPT效果有何差异。
方案一:直接【PPT创作】
我的需求是3个低风险的理财方案,给到了初始资金“20w、目标收益1000元”等明细数字,Qwen 3 花费了1 分钟做了一个 PPT 大纲,可以修改和调整,但大纲中并没有给到用户的详细理财建议,随后点击末尾的【PPT创作】(这里点击后一直显示未就绪状态,强烈吐槽,需要优化!)
虽然可以选择多种PPT样式,但最后的PPT成品里面只有一些大而全的简单建议,可参考性几乎为 0,并未能理解用户需求,有效性较低。
方案二:先【分析研究】,再【PPT制作】
【分析研究】
为了得到详细的投资建议,我们先进行分析研究,这次 Qwen 3 真的走心了,调用了多个网页内容,查阅了很多资料,认真的撰写研究报告
【PPT 制作】但是这个报告并不能直接生成 PPT,需要我们将 Qwen 3 给到的内容保存到文档,再将文档进行上传,我们再来看看此时PPT效果
在PPT最后生成的时段,仅有文档中关于理财产品的介绍,文档中的表格、收益分析、投资建议等都没有,后面10多页的 PPT 内容都在“无中生有”。
这是一个测试 Qwen 3 的数据分析推理及 PPT 制作综合能力的 case,我们使用“分析研究”功能时,能够得到想要的分析结果,但是在 PPT 制作方向,Qwen 3 并不能满足需求,无法按照文档生成 PPT,不具备实际参考性。
case2 游玩路线规划
接下来再来看看 Qwen 3 的路线规划能力如何,这次给它给我们规划五一的出行路线。
prompt:我五一要从成都出发,计划去上海、湖南凤凰古城、广州三个地方游玩,给我推荐最经济实惠的详细游玩出行路线,并做好每天游玩规划,我需要去到每个地方的打卡点并吃到美食,共计5天,给我一个详细的出行计划。
这个case 测试是 Qwen 3 的规划能力,需要基于设定的三个目标点做路线规划和游玩规划,最关键的是要在时间和费用上做一个平衡。
Qwen 3 这次的行程看似安排合理,包含我们的所有需要,但是 Qwen 3 第一天规划成都到上海的路径居然是动车,这趟动车可是需要坐12个小时!!!
真要这样出行,那真的是后面几天都没办法玩了!同时 Qwen 3 并未规划第五天回成都的路线,在未回成都的前提下,本次行程规划的交通费用约2406元、住宿费用约634元、餐饮费用约400元、景点门票约328元,共计约3768元,但是上海海友酒店在五一期间的价格为450元/晚左右,因此给到的242元/晚并不可靠。
如果 Qwen 3 这里将成都出行换成飞机,广州就有多玩一天的时间,那么这个行程就还不错,因此 Qwen 3 给的这个规划还是具备一定的参考性。
case3 游玩穿搭规划
prompt:我五一要去上海迪士尼游玩,给我推荐几套适合拍照出片的女装套装,不要平台搭配的套装,我要你来给我搭配衣服,你要给我看搭配效果图,并且把对应的购买链接发给我。
这个case 测试的是 Qwen 3 另一种规划能力,需要 Qwen 3 进行联网搜索商品,根据网上现有的穿搭攻略整理出适合迪士尼拍照打卡的穿搭,Qwen 3 在思考过程中搜索了很多穿搭攻略及商品,并在最后的结论中给到了多种场景下的穿搭建议。
但是给到是商品信息没有附带购买链接,也没有穿搭的图片效果,并没有完全按照要求执行,同时也发现有幻觉存在,比如太平鸟并未出米妮联名款衣服,但整体还是具有一定参考性,能够帮助我们完成 一定的穿搭攻略。
操作类任务实测小结:
完整性:Qwen 3 整体的完成度较高,但会有部分指令缺失,并未能理解用户需求,有效性较低;
一致性:Qwen 3 的一致性较高,产出结果的上下文内容一致,完成度较高;
有效性:Qwen 3 能够可以帮助用户解决大部分的问题,但不能直接给到PPT、效果图等内容;
真实性:Qwen 3 是基于联网搜索再做分析推理,但是由于缺少生活经验,给到的数据有一定的差距,真实性并不能达到很高。
3.4 问答类任务实测
case1 电车难题
prompt:无人驾驶汽车在紧急情况下必须选择撞向行人或牺牲乘客,其算法应如何权衡生命价值?请从伦理学和法律角度探讨这一“电车难题”的现代版。
当我们把这个“电车难题”给到 Qwen 3 ,它经过思考后,给了一篇理性的分析问答, 深入探讨了集体决策(MES)与个人选择(PES)的问题,同时又从法律和伦理算法方向继续探讨如何权衡生命价值。最后还做了引申,希望提升无人驾驶汽车驾驶技术,改进传感器技术,从根本上解决问题,这一波理性分析可以给到满分!
case2 人类价值探讨
prompt:如果宇宙终将热寂,人类文明的存在是否有永恒价值?
这个case主要是在测试 Qwen3 在人文价值方面的思辨能力,Qwen 3 的回答实现了较高的跨学科覆盖,核心议题无遗漏,从热力学第二定律的科学溯源,到存在主义、过程哲学、东方智慧的多维度阐释,最后落实到可操作的实践方案,形成 “问题 - 理论 - 应用” 的完整闭环,无逻辑断层或话题偏离,可以满足深度哲学探讨需求,但哲学讨论深度较高,可能超出普通读者的知识储备,需简化核心观点以增强普及性。
在伦理学维度, Qwen3 的回答缺失,未深入探讨热寂背景下的伦理重构(如资源分配、代际公平),仅在科技伦理部分略有提及。
问答类任务实测小结:
创作能力上,Qwen3 实测未能生成PDF文件和参考图片,完整性有待提升;在设计美观等方面的有效性有待增强;存在一些幻觉内容(如航班、酒店信息和价格不存在)容易误导用户,真实性不算很高,但一致性较高;
在分析能力上,Qwen3 的信息搜集能力较强,但未能给用户具体建议,完整性有待提升;数据的时效性滞后,建议不细致,实际的有效性还有很大提升空间;在一致性方面表现较好,但有少量幻觉;
在操作能力上,Qwen3 能够完成简单的任务指令(如信息收集整理),不能完成较为复杂的指令,同时缺少生活经验,计划的落地性较低,因此只能为用户解决基础的问题,在一致性方面表现较好,由于信息掌握不够全面(如五一假期酒店价格上涨),信息并不准确;
在问答能力上,Qwen3 在基于现实出发,会理性综合的分析问题,产出的结果是符合事实规律的,在一致性和真实性两方面表现较好。
以上就是本次的评测内容,我们AGI-Eval 大模型评测社区持续关注现在大模型行业的发展,持续探寻 AGI 的发展之路。后续我们也将第一时间为大家评测更多模型,期待更多人加入我们。
最后,如果你也喜欢这篇文章,那就点赞转发收藏吧~下一期继续为你带来大模型最新资讯&评测&榜单信息,记得关注我们!
往期回顾
1.【AGI-Eval评测报告 NO.1】DeepSeek 三大类型模型全面评测,通用及推理模型实现领跑,多模态位于第三梯队
2.【AGI-Eval评测报告 NO.2】DeepSeek V3-0324抢先评测!最全报告输出
3.【AGI-Eval评测报告 NO.3】第一手实测GPT-4o文生图能力!最权威报告输出
同时文末也期待大家参与我们社群,一起探寻 AGI 的更多可能性,发现更多不一样的视角,提出问题才有机会解决问题。