前言
现在,为聊天场景打造的大模型也可以生成图片。不仅有趣,还十分有用!
我说下面这张盘子图是 AI 大模型画的,你敢信吗?
注意:不是文生图专用的 MJ、 SD画的,而是原生文生文大模型画的!
很像,是不是!
下面这张中国水墨画也是!
我的世界游戏图片
万万没想到,我一个玩 AI 大模型的,通过这种方式挤进了 AI 绘画赛道!
一直以来,以 ChatGPT 为代表的大模型的主要应用场景都是聊天,生成文字。绘图是需要 MJ, DALL-E,SD 这些专用于生成图像的 AI 模型才能做到!
现在,通过生成文字的方式,AI 大模型可以原生绘画了!
当我画出上面几张图的时候,真的有被震惊到!要知道,几个月前,大模型能够画的图还是这种!
现在,全新的升级的 Claude 已经将大模型绘画的能力进化到一个全新的高度 !
文字大模型也有了审美,能够构图,能够绘画。
更关键的,AI 大模型画的 SVG 图像是可编程的!我们可以直接修改里面的代码实现图片元素的精准控制!
生产力绘图
尤其是在生产力绘图上面,大模型绘图的优势尤为明显!
绘制汉语新解卡片
绘制个人社交名片
绘制海报
这是江树在给工信部信通院进行提示词工程主题分享时做的一张海报,完全由 Claude 辅助绘制,通过多轮对话绘制完成,耗时 10min。
绘制 PPT 架构图
“四横三竖” 的系统架构图相信很多人都头疼过,通过大模型绘图,2min 即可搞定,效果如下。
绘制知识点总结图
这是文章中用到的一张图,同样完全由 Claude 辅助绘制,把知识点提供给 Claude,耗时 2min 即可完成。
绘制思维导图
这是江树制作的提示词全景图,完全由 Claude 辅助绘制,通过提供资料让Claude梳理后生成 markdown 思维导图,导入 xmind 生成,耗时 2 min。
绘制应用树状图
这是江树制作的提示词应用场景图,完全由 Claude 辅助绘制,通过提供资料让Claude梳理后直接生成 mermaid 图表生成,耗时 1 min。
这些图十分常用,并且都是MJ, SD 这些生图模型没办法实现的。
通过大模型是怎么画的呢?请看下文。
大模型是怎样画画的?
大语言模型(LLM)虽然主要处理文本数据,但通过各种巧妙的方式,它们也能够"绘画"。这些绘画方式各具特色,适用于不同场景。
本文将系统性地介绍这些方法,分析其优缺点,并提供具体示例。
绘画方式
原理
-
通过生成 XML 格式的 SVG 标签描述图形
-
使用数学公式定义图形的路径和形状
-
支持基本图形元素和复杂路径
原理
-
使用 ASCII 字符排列形成图案
-
通过字符密度表现明暗层次
-
利用特殊字符创造线条和形状
原理
-
使用 HTML 元素作为基本图形单元
-
通过 CSS 控制样式和布局
-
利用 CSS3 特性实现复杂效果
原理
-
使用声明式语法描述图表结构
-
自动计算布局和连接
-
支持多种图表类型
5. Unicode 字符画
原理
-
使用 Unicode 字符集创建图案
-
包含 emoji 和特殊符号
-
比 ASCII 有更丰富的表现力
绘画方式选择
在不同场景下选择合适的可视化方案时,需考虑以下几个维度:
【使用环境】浏览器适合 SVG 和 HTML/CSS,终端适合 ASCII 和 Unicode,文档系统适合 Mermaid,社交媒体适合 Unicode;
【功能需求】精确绘图选择 SVG,结构图表选择 Mermaid,交互动画选择 HTML/CSS,简单图案选择 ASCII/Unicode;
【性能考虑】高性能要求用 SVG,中等性能用 ASCII/Unicode,资源密集用 HTML/CSS;
【维护成本】低维护选 ASCII/Unicode,中等维护选 SVG 和 Mermaid,高维护选 HTML/CSS。
总的来说,目前用得比较多的还是 SVG 和 Html 方式。
大模型绘画实践指南
大语言模型的绘画能力虽然有限,但通过不同的方式可以实现多样的视觉表达。选择合适的绘画方式对于实现特定需求至关重要。未来,随着技术的发展,大语言模型的绘画能力还将进一步提升和扩展。
怎么写提示词?
清晰的表达即可,下面提供一个我常用的结构化模版
任务:帮我绘制一个【xxx】
技术:svg图片
要求:配色美观,有设计感、艺术感和高级感
作者:云中江树
模型:Claude 3.5 Sonnet
以绘制一个可爱小熊为例。
提示词:
任务:帮我绘制一个【xxx】
技术:svg图片
要求:配色美观,有设计感、艺术感和高级感
作者:云中江树
模型:Claude 3.5 Sonnet
生成效果图:
不同绘画方式对比
由于其他几种方法能绘制的图像有限,这里主要对比 SVG 方法和 Html,React 代码方法。
React 代码也属于前端代码,可以视为 Html 路线下的子路线。
目前总的来说, 三者的表现都还比较相近,从效果来说 SVG 最佳。
当前,大模型绘图的最佳方式还是 SVG 方式,推荐使用。
那么,这么多大模型,哪家大模型的 SVG 绘图能力最强呢?
国内外不同大模型对比
我们对比了国外最好的三个大模型:Claude、 Gemini、GPT-4o,国内四款口碑大模型:ChatGLM,豆包,通义,Kimi。效果如下图:
从图片中可以看到,Claude 的绘图能力遥遥领先其他模型,在配色,外形,神韵方面都表现出色。
而国内的智谱模型表现也很优秀,绘制出了神韵。这也符合我们日常使用的体感。
此外没想到,GPT-4o 的结果这么惨不忍睹,还没有国内的模型好…
那么大模型在不同的场景下绘图能力如何呢?
我们用当前最强的大模型 Claude 来测评,这也是目前绘图最强的大模型(测评时间,2024.10.24,程序员节)
Claude 绘图能力测评
给古诗配图,水墨风意境能很好的体现出来。
绘制物体,形状、颜色和质感都还不错,位置关系局部有些小瑕疵。
绘制场景,简单的场景现在能轻松处理了,蓝天白云沙滩这样简单的场景效果不错,复杂一些的场景现在还做不太好。
绘制动漫角色,形和神都有了,局部有些位置不协调。
画小动物,整体可以称得上不错,挺可爱的,尤其小猫。
画人物头像,人物特点表现的很明显,机械感还是比较重。
画人物,还行,比较粗糙,SVG 能画成这样已经很棒了。
风格变化
调整不同的风格描述,可以看到 Claude 可以精准的识别不同的风格。当然由于能力限制,现在的绘图效果没有那么理想。但是绘制简笔画真的挺好看的hh
使用参考图像生成图片
因为 Claude 可以上传图片,所以我们可以尝试上传参考图像让大模型参考绘图。
比如我们上传蔡徐坤老师打篮球的图片,可以得到下面的图片。
注意:为了避免潜在的争议和不当使用他人形象,Claude 会避免生成和真人相关的图片,所以我们提示词用的「剪影」一词。
生成的图片打篮球的神韵还是有的hh
与绘画 AI 模型相比
和专门用于绘画的 AI 模型相比效果肯定还是没法比的,但是我们这里还是做一下对比,看看差距多大。这里我们采用国内的即梦 AI 和 Claude 绘图对比。
简单,写意的图片大模型绘制的还是不错的,涉及到复杂的细节,构图,则还是使用专门的图片模型好。
结语
用大模型绘图听上去有点奇怪,绘图效果也没有专门的生图模型好看,为什么要用大模型绘图呢?
因为我想知道大模型现在能力到什么地步了,在文字上训练还能产生绘画能力真的不可思议,令我着迷。
并且我也想看到大模型更多的可能性,不论 AGI 有没有到来,一个不争的事实都是:AI 正在快速的进化,越来越多的能力涌现,本文是希望对其绘图能力的进行测评,探索AI当前的能力水平。
同时,大模型生图的这种能力在效率场景下十分有用,本文的所有图片,海报,均由 AI 生成。
那么,如何系统的去学习大模型LLM?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。
但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~
篇幅有限,部分资料如下:
👉LLM大模型学习指南+路线汇总👈
💥大模型入门要点,扫盲必看!
💥既然要系统的学习大模型,那么学习路线是必不可少的,这份路线能帮助你快速梳理知识,形成自己的体系。
路线图很大就不一一展示了 (文末领取)
👉大模型入门实战训练👈
💥光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉国内企业大模型落地应用案例👈
💥两本《中国大模型落地应用案例集》 收录了近两年151个优秀的大模型落地应用案例,这些案例覆盖了金融、医疗、教育、交通、制造等众多领域,无论是对于大模型技术的研究者,还是对于希望了解大模型技术在实际业务中如何应用的业内人士,都具有很高的参考价值。 (文末领取)
👉GitHub海量高星开源项目👈
💥收集整理了海量的开源项目,地址、代码、文档等等全都下载共享给大家一起学习!
👉LLM大模型学习视频👈
💥观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。 (文末领取)
👉640份大模型行业报告(持续更新)👈
💥包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
👉获取方式:
这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓