大家好,我是樱木。
这周阿里千问3 ,迎来了重磅更新,我们来看看这周的时间线:
7月22日,开源基础模型的 Qwen3 非思考版,在知识、数学、编程、人类偏好对齐、Agent能力等众多测评中表现出色,超越 Claude4(Non-thinking)等领先闭源模型。
7月22日,开源编程模型 Qwen3-Coder,在多语言 SWE-bench、Mind2Web、Aider-Polyglot等模型Agent能力评估中,Qwen3-Coder比肩GPT4.1、Claude4等顶级闭源模型。
7月25日,推理模型 Qwen3,在知识、编程、数学、人类偏好对齐、创意写作、多语言能力等核心能力上,通义千问3推理模型完全可比肩 Gemini-2.5 pro、o4-mini等顶尖闭源模型。
三连发,确实可以消化一阵子了。阿里进入了千问时刻!
以樱木所在的 IT/互联网行业为例,我们使用 Qwen3-Coder 看看编程模型表现如何?
这款编程模型,推特联合创始人 Jack Dorsey 发来了连声赞叹!
千问3 官方网站:https://chat.qwen.ai/
下面我们使用几个例子来看看,到底如何?
1、开发一个百度首页。
输入:生成一个百度首页
预览效果
页面非常逼真了,看不出真假百度页面。
2、制作食堂满意度调查问卷
输入:生成一个食堂满意度调查问卷表单,包含环境卫生、饭菜口感、人员服务态度和打菜份量。表单元素应垂直堆叠并放置在卡片内。
这次的页面,增加了收集意见反馈,更加人性化。
3、程序员个人网站
输入:为程序员创建个人博客,包含个人介绍、教育背景、项目经验、优势特长等部分。
千问3 提供的预览窗口,太小了。
需要把源代码下载下来,看效果。
效果如下:
这个个人介绍页面,中规中矩的。
4、小红书网站
输入:创建一个具有小红书风格设计的内容社交网站。
预览效果,这很小红书呀
写到,樱木觉得这次千问3 的模型更新能力,是在踏实干活的。
总体和上一个版本,樱木写的文章 刷屏的千问3( Qwen3),到底怎么样?,对比了下,模型能力进化很多,页面效果更美观,美中不足的是预览模式,不是特别好用,有时还得下载下来,才能看到全的预览效果。
希望下次千问3 的产品,会有更友好用户的体验。
好啦,今天的分享就到这里了。有帮助的帮忙点个赞。
AI 系列入门手把手教程:AI教程合集
我是樱木,持续探索 AI 领域,主要分享最新的 AI 工具动态,评测,提效。