一、研究背景与目标
NovelAI 团队于 2023 年 10 月 21 日发布了面向动漫风格的图像生成模型 NovelAI Diffusion Anime V2(简称 NAID V2)。该模型是对既有 V1 版本的直接升级,仍以 Stable Diffusion 为底层框架,但通过新的训练方法与数据策略,在风格一致性、细节表现、美学质量与可控性方面实现全面提升。
二、训练方法更新
NAID V2 依托英伟达 H100 计算集群重新审视并改进了训练流程,具体措施包括:
-
分辨率提升
训练分辨率由 512×768 提升至 1024×1024,使得默认无需 SMEA 采样即可直接生成分辨率为 832×1216 或 1216×832 的竖图与横图。
对 Opus 订阅用户,免费生成的最大分辨率同步开放至 1024×1024。 -
领域知识强化
通过更大规模、更高质量的动漫领域数据,模型对提示词(prompt)标签的遵循能力显著增强。
三、Undesired Content Strength 机制
新模型引入“Undesired Content Strength”(UC Strength)参数,用于独立调节负向提示词(Undesired Content)的权重:
-
默认值 100% 表示 UC 不额外生效;
-
低于 100% 时,UC 作用被削弱,0% 近似于将 UC 留空;
-
高于 100% 时,UC 权重高于正向提示词,进一步抑制指定内容。
该功能需额外算力,生成速度略降并增加 Anlas 代币消耗。
四、提示词体系重构
4.1 质量标签(Quality Tags)
旧版“masterpiece”标签因易引入画框等副作用被移除,新版质量标签按优劣顺序如下:
best quality → amazing quality → great quality → normal quality → bad quality → worst quality
4.2 美学标签(Aesthetics Tags)
团队自建美学评分数据集,新增四级美学标签:
very aesthetic → aesthetic → displeasing → very displeasing
建议与质量标签组合使用,通常“best quality + very aesthetic”即可取得高美学结果。
4.3 年份标签(Year Tags)
通过“year 2022”“year 2014”等标签,可直接控制输出图像的艺术年代风格。
五、新旧模型对比示例
作者在相同随机种子与近似提示词下生成对比图,展示 V2 相对 V1 在以下方面的提升:
-
线条清晰度
-
色彩饱和与过渡
-
角色面部与服饰细节
-
背景构图合理性
(原文提供示例图,此处略)
六、后续计划与社区活动
团队已基于 V2 经验启动 V3 训练,并报告“早期结果非常可期”。同时,官方于 2023 年 10 月 20 日至 31 日举办万圣节主题图像生成比赛,奖池合计 65,000 Anlas。