【AGI-Eval实测速报】Qwen3 四大维度开箱评测，模型实测效果大放送！

4月29日凌晨，阿里巴巴正式开源新一代通义千问模型 Qwen3，多项能力达到或者超过了当前的主流模型，那么 Qwen3 的实测情况究竟是怎么样的？我们从创作、分析力、操作力和问答四个方向进行了任务实测，Qwen3 的 Agent 能力相对前代模型得到了很大提升，但也存在数据滞后、模型幻觉等问题，一起来看下这些有趣的case测试吧！

1. Qwen 3 介绍

2. Qwen 3 实测案例

2.1 评测核心结论

2.2 策划类任务实测

2.3 分析类任务实测

2.4 操作类任务实测

2.5 问答类任务实测

1.Qwen 3 介绍

昨日阿里正式开源 Qwen3 系列模型，包含2个 MoE 模型、6个稠密模型，其中的 Qwen3-235B-A22B 模型在编程、数学、通用能力等基准评估中的表现超过了 DeepSeek-R1、OpenAI o1、OpenAI o3-mini、Grok-3 和 Gemini-2.5-Pro 等模型，在 AIME25 测评中，Qwen3 斩获 81.5 分，刷新开源纪录。

Qwen 3 亮点如下：

支持混合思考模式来解决问题：将「分析研究」功能加入到模型功能中，可根据任务需求控制模型进行的“思考”程度（类似于Claude 3-7 Sonnet）；

多个模型版本同时发布：包含 2 款 30B、235B 的 MoE 模型，以及 0.6B、1.7B、4B、8B、14B、32B 等 6 款密集模型，同时均斩获同尺寸开源模型 SOTA，能够满足不同需求；

用户兼容性强大：Qwen 3 模型支持119种语言和方言，同时原生支持 MCP 协议，并具备强大的工具调用（function calling）能力；

项目地址：

HuggingFace：

https://huggingface.co/Qwen/Qwen3-235B-A22B

魔搭社区：

https://modelscope.cn/models/Qwen/Qwen3-235B-A22B

Qwen Chat：https://chat.qwen.ai

2.Qwen 3 实测

2.1评测核心结论

策划类任务，Qwen3 实测未能生成PDF文件和参考图片，完整性有待提升；在设计美观等方面的有效性有待增强；存在一些幻觉内容（如航班、酒店信息和价格不存在）容易误导用户，真实性不算很高，但一致性较高；

分析类任务，Qwen3 的信息搜集能力较强，但未能给用户具体建议，完整性有待提升；数据的时效性滞后，建议不细致，实际的有效性还有很大提升空间；在一致性方面表现较好，但有少量幻觉；

操作类任务，Qwen3 能够完成简单的任务指令（如信息收集整理），不能完成较为复杂的指令，同时缺少生活经验，计划的落地性较低，因此只能为用户解决基础的问题，在一致性方面表现较好，由于信息掌握不够全面（如五一假期酒店价格上涨），信息并不准确；

问答类任务，Qwen3 基于现实出发，会理性综合的分析问题，产出的结果是符合事实规律的，在一致性和真实性两方面表现较好。

在本次评测报告中，我们测试 Qwen 3的亮点——「分析研究」模式，「分析研究」模式下耗时较长，实测中每个的 case 耗时在2分钟-20分钟不等

主要对「分析研究」的创作、分析、操作、问答四个能力进行评测，下面我们来看实测的具体案例。

2.2 策划类任务实测

case1 旅行计划

prompt：我想五一期间从上海出发两个人去马尔代夫度假，但时间和预算都有限，最多节后请一天假，最好不请假，机票酒店餐饮加起来总预算控制在1万元以内。需要给出具体的航班号、出发时间和到达时间。最后结果整理成一个文档。

这个 case 旨在测试 Qwen3 的规划能力，测试它是否可以满足用户的生活情景需求。生成的旅行攻略基本满足用户需求。可以作为大致参考，需要借助 App去验证。经验证模型的回答存在幻觉：航班、酒店信息和价格不存在，没有考虑到实际因素，五一节假日期间是机酒价格高峰，只是按照要求'1万元以内'做出的计划，但与实际航班信息不相符，价格信息也不准确，一趟从上海飞往马尔代夫马累市的机票价格就在2600~11200元之间，只是围绕要求的合理性，由于临期价格出现较大波动，而未参考实际性，存在模型幻觉。对 P人比较友好，可以节省一些时间去做list；但对于 J 人来说，它只是个参考，每一项内容都需要核对，并进行个性化调整。

生成的旅行计划如下：

五一假期是五天，在5.3日就制定返程计划，不满足用户需求，同时航班信息和价格也不真实。

case2 生日祝福网页开发

prompt：我女朋友的生日是5月21日，帮我制作一个浪漫高级的生日祝福网页，采用粉色和紫色为主。

生成的代码页面效果如下：

这个 case旨在测试 Qwen3 的编程设计能力，基本实现了用户要求，内容专业、细节丰富，略需补充工程化细节。视图配置均符合官方文档规范，无虚构 API，但在设计方面美观程度不足，只能满足基本信息要素，粒子动画实现方式描述不一致，且性能提示缺失，未说明对老旧浏览器（如 IE）的支持方案。

case3 制作文艺片拍摄教程

prompt：我是一名摄影爱好者，想拍一些很文艺的大片，奈何不会选角度调参数，对光线也不了解，请教我如何拍摄文艺片，帮我生成一个pdf教程，并且配上你生成的图供我学习参考。

这个 case 旨在测试 Qwen3 的通用能力，未能完全覆盖用户需求，未提及手机摄影的适配建议，缺少 “从主题构思到成片” 的完整案例拆解，没有按照“生成 PDF 文件并提供参考图片”的要求输出内容。但额外补充了 实用技巧、创意表达、常见误区 等扩展内容，形成从前期准备到后期输出的完整闭环。

策划类任务实测小结：

完整性：case1和case2基本实现了用户要求；case3未能完全实现用户要求，但有额外输出。

一致性：产出旅行攻略、祝福网页、摄影教程的上下文内容一致；

有效性：对于P人用户，其生成的旅行攻略可以在一定程度上帮助解决问题；Qwen3 生成的网页祝福在设计方面美观程度不足，对于用户而言，不具备实用性；拍摄教程缺少 “从主题构思到成片” 的完整案例拆解，有效性有待增强；

真实性：三个结case产出结果都符合事实。

3.2 分析类任务实测

case1 调研字节在 AI agent 领域的动向

prompt：调研字节在AI agent领域，请帮我梳理一下近3个月来，字节跳动在AI agent领域的产品发展与动向

这个 case旨在测试 Qwen3 对市场热点信息的捕捉和收集能力，Qwen3 的回答覆盖了核心战略与技术细节，可以完成完整的信息搜集工作。它梳理出了字节跳动近3个月在 AI Agent 领域的产品发展与动向，包括其核心产品发布、技术升级、应用场景拓展以及市场策略调整等方面，产出结果的上下文内容一致，数据符合事实。

case2 通用 Agent 调研

prompt：帮我调研一下 manus、openmanus、owl 等通用 Agent 的实现方案，呈现一个比较详细的技术设计方案给我，不需要代码部分

这个 case旨在测试 Qwen3 的横向对比能力，Qwen3 的回答满足了用户的核心诉求。它能自动生成表格对比，相对直观清晰，产出的结果上下文内容一致，数据也符合事实，能够展示出Manus、OpenManus和OWL各自的特征和优势。从技术分析到整合方案，再到商业化路径，形成完整逻辑链条。但在财务数据方面略有不足，Manus 的商业化收入、OpenManus 的用户增长等量化指标未披露。

case3 京东美团饿了么分析与投资建议

prompt：京东美团饿了么分析与投资建议，结合热点和业务模式，从投资角度去分析后给出投资建议，做短线还是长线，盈利能力如何

这个 case 旨在测试 Qwen3 的专业数据分析能力。细节略有缺失，只能满足用户基本的需求。从数据上看，时效性滞后，为23年的数据，且丢失饿了么数据项，缺乏风险率投资回报率、市盈率等有效数据。从内容上看，缺乏细化估值模型，未说明 PE/PB 估值的行业对比，专业性有待提升；投资建议不细致，没有给出在什么区间适合交易，不具备实际参考性。

分析类任务实测小结：

完整性：在case1和2中，完成了完整的信息搜集工作，生成了相对直观清晰的表格对比，能很好地实现用户要求；在case3中，数据时效性滞后，投资建议不细致，只能满足用户的基本需求。

一致性：在3个case中，产出的报告上下文内容一致；

有效性：case1 梳理了字节跳动近3个月在 AI Agent 领域的产品发展与动向；case2 展示出Manus、OpenManus和OWL各自的特征和优势，都具备高度有效性；case3 数据时效性滞后，投资建议不细致，不太具备实际参考性，有效性有待增强；

真实性：3个case产出结果都符合事实。

3.3 操作类任务实测

case1 制作PPT方案

prompt：我想用20w进行理财，我能承受的风险属于低风险，我的目标是：最低要求是保本，一个月最好能获得1000-2000元的收益；投资理财的产品最好不要超过三个，避免资金太散。需要三个方案，以便我自己作对比，最好以PPT的形式呈现给我

可以看到，Qwen 3 还有一个单独的“PPT制作”功能，如果我们需要做一个具有深度的PPT，我们有两种方式：
①直接点击【PPT创作】；

②先【分析研究】再【PPT创作】；

我们一起来看下步骤不同做出来的PPT效果有何差异。

方案一：直接【PPT创作】

我的需求是3个低风险的理财方案，给到了初始资金“20w、目标收益1000元”等明细数字，Qwen 3 花费了1 分钟做了一个 PPT 大纲，可以修改和调整，但大纲中并没有给到用户的详细理财建议，随后点击末尾的【PPT创作】（这里点击后一直显示未就绪状态，强烈吐槽，需要优化！）

虽然可以选择多种PPT样式，但最后的PPT成品里面只有一些大而全的简单建议，可参考性几乎为 0，并未能理解用户需求，有效性较低。

方案二：先【分析研究】，再【PPT制作】

【分析研究】

为了得到详细的投资建议，我们先进行分析研究，这次 Qwen 3 真的走心了，调用了多个网页内容，查阅了很多资料，认真的撰写研究报告

【PPT 制作】但是这个报告并不能直接生成 PPT，需要我们将 Qwen 3 给到的内容保存到文档，再将文档进行上传，我们再来看看此时PPT效果

在PPT最后生成的时段，仅有文档中关于理财产品的介绍，文档中的表格、收益分析、投资建议等都没有，后面10多页的 PPT 内容都在“无中生有”。

这是一个测试 Qwen 3 的数据分析推理及 PPT 制作综合能力的 case，我们使用“分析研究”功能时，能够得到想要的分析结果，但是在 PPT 制作方向，Qwen 3 并不能满足需求，无法按照文档生成 PPT，不具备实际参考性。

case2 游玩路线规划

接下来再来看看 Qwen 3 的路线规划能力如何，这次给它给我们规划五一的出行路线。

prompt：我五一要从成都出发，计划去上海、湖南凤凰古城、广州三个地方游玩，给我推荐最经济实惠的详细游玩出行路线，并做好每天游玩规划，我需要去到每个地方的打卡点并吃到美食，共计5天，给我一个详细的出行计划。

这个case 测试是 Qwen 3 的规划能力，需要基于设定的三个目标点做路线规划和游玩规划，最关键的是要在时间和费用上做一个平衡。

Qwen 3 这次的行程看似安排合理，包含我们的所有需要，但是 Qwen 3 第一天规划成都到上海的路径居然是动车，这趟动车可是需要坐12个小时！！！

真要这样出行，那真的是后面几天都没办法玩了！同时 Qwen 3 并未规划第五天回成都的路线，在未回成都的前提下，本次行程规划的交通费用约2406元、住宿费用约634元、餐饮费用约400元、景点门票约328元，共计约3768元，但是上海海友酒店在五一期间的价格为450元/晚左右，因此给到的242元/晚并不可靠。

如果 Qwen 3 这里将成都出行换成飞机，广州就有多玩一天的时间，那么这个行程就还不错，因此 Qwen 3 给的这个规划还是具备一定的参考性。

case3 游玩穿搭规划

prompt：我五一要去上海迪士尼游玩，给我推荐几套适合拍照出片的女装套装，不要平台搭配的套装，我要你来给我搭配衣服，你要给我看搭配效果图，并且把对应的购买链接发给我。

这个case 测试的是 Qwen 3 另一种规划能力，需要 Qwen 3 进行联网搜索商品，根据网上现有的穿搭攻略整理出适合迪士尼拍照打卡的穿搭，Qwen 3 在思考过程中搜索了很多穿搭攻略及商品，并在最后的结论中给到了多种场景下的穿搭建议。

但是给到是商品信息没有附带购买链接，也没有穿搭的图片效果，并没有完全按照要求执行，同时也发现有幻觉存在，比如太平鸟并未出米妮联名款衣服，但整体还是具有一定参考性，能够帮助我们完成一定的穿搭攻略。

操作类任务实测小结：

完整性：Qwen 3 整体的完成度较高，但会有部分指令缺失，并未能理解用户需求，有效性较低；
一致性：Qwen 3 的一致性较高，产出结果的上下文内容一致，完成度较高；
有效性：Qwen 3 能够可以帮助用户解决大部分的问题，但不能直接给到PPT、效果图等内容；
真实性：Qwen 3 是基于联网搜索再做分析推理，但是由于缺少生活经验，给到的数据有一定的差距，真实性并不能达到很高。

3.4 问答类任务实测

case1 电车难题

prompt：无人驾驶汽车在紧急情况下必须选择撞向行人或牺牲乘客，其算法应如何权衡生命价值？请从伦理学和法律角度探讨这一“电车难题”的现代版。

当我们把这个“电车难题”给到 Qwen 3 ，它经过思考后，给了一篇理性的分析问答，深入探讨了集体决策（MES）与个人选择（PES）的问题，同时又从法律和伦理算法方向继续探讨如何权衡生命价值。最后还做了引申，希望提升无人驾驶汽车驾驶技术，改进传感器技术，从根本上解决问题，这一波理性分析可以给到满分！

case2 人类价值探讨

prompt：如果宇宙终将热寂，人类文明的存在是否有永恒价值？

这个case主要是在测试 Qwen3 在人文价值方面的思辨能力，Qwen 3 的回答实现了较高的跨学科覆盖，核心议题无遗漏，从热力学第二定律的科学溯源，到存在主义、过程哲学、东方智慧的多维度阐释，最后落实到可操作的实践方案，形成 “问题 - 理论 - 应用” 的完整闭环，无逻辑断层或话题偏离，可以满足深度哲学探讨需求，但哲学讨论深度较高，可能超出普通读者的知识储备，需简化核心观点以增强普及性。

在伦理学维度， Qwen3 的回答缺失，未深入探讨热寂背景下的伦理重构（如资源分配、代际公平），仅在科技伦理部分略有提及。

问答类任务实测小结：

创作能力上，Qwen3 实测未能生成PDF文件和参考图片，完整性有待提升；在设计美观等方面的有效性有待增强；存在一些幻觉内容（如航班、酒店信息和价格不存在）容易误导用户，真实性不算很高，但一致性较高；

在分析能力上，Qwen3 的信息搜集能力较强，但未能给用户具体建议，完整性有待提升；数据的时效性滞后，建议不细致，实际的有效性还有很大提升空间；在一致性方面表现较好，但有少量幻觉；

在操作能力上，Qwen3 能够完成简单的任务指令（如信息收集整理），不能完成较为复杂的指令，同时缺少生活经验，计划的落地性较低，因此只能为用户解决基础的问题，在一致性方面表现较好，由于信息掌握不够全面（如五一假期酒店价格上涨），信息并不准确；

在问答能力上，Qwen3 在基于现实出发，会理性综合的分析问题，产出的结果是符合事实规律的，在一致性和真实性两方面表现较好。

以上就是本次的评测内容，我们AGI-Eval 大模型评测社区持续关注现在大模型行业的发展，持续探寻 AGI 的发展之路。后续我们也将第一时间为大家评测更多模型，期待更多人加入我们。

最后，如果你也喜欢这篇文章，那就点赞转发收藏吧~下一期继续为你带来大模型最新资讯&评测&榜单信息，记得关注我们！

AGI-Eval大模型评测

AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区，旨在打造公正、可信、科学、全面的评测生态以“评测助力，让AI成为人类更好的伙伴"为使命。

14篇原创内容

公众号

往期回顾

1.【AGI-Eval评测报告 NO.1】DeepSeek 三大类型模型全面评测，通用及推理模型实现领跑，多模态位于第三梯队

2.【AGI-Eval评测报告 NO.2】DeepSeek V3-0324抢先评测！最全报告输出

3.【AGI-Eval评测报告 NO.3】第一手实测GPT-4o文生图能力！最权威报告输出

同时文末也期待大家参与我们社群，一起探寻 AGI 的更多可能性，发现更多不一样的视角，提出问题才有机会解决问题。