人工智能咨询培训老师叶梓 转载标明出处
想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。
1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。
CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987
想快速掌握自动编程技术吗?叶老师专业培训来啦!这里用Cline把自然语言变代码,再靠DeepSeek生成逻辑严谨、注释清晰的优质代码。4月12日,叶梓老师将在视频号上直播分享《用deepseek实现自动编程》。
视频号(直播分享):sphuYAMr0pGTk27 抖音号:44185842659
Open-Sora 2.0 是一款仅用 20万美元 成本训练出的商业级视频生成模型,参数规模达到 110亿。该模型在权威评测 VBench 中表现出色,与 OpenAI 的 Sora 等顶尖模型的性能差距大幅缩小,几乎追平。Open-Sora 2.0 的开源性进一步推动了视频生成技术的普及和创新。
数据策略
Open-Sora 2.0 的数据策略围绕构建 分层数据金字塔 展开,通过多级过滤系统从海量原始视频中筛选出高质量的训练数据。具体来说,数据处理分为预处理和评分过滤两个阶段:
-
预处理:将原始视频转换为适合训练的短片段,去除损坏文件和不符合格式要求的视频(如时长小于2秒、帧率低于16fps等)。通过镜头检测技术,将视频分割为独立片段,并确保输出片段符合特定格式要求。相关流程见图 2 的数据过滤系统示意图。
-
评分过滤:通过一系列评分过滤器进一步提升数据质量。这些过滤器包括美学评分、运动评分、模糊检测和OCR检测等。过滤器的评分机制和效果见表 1。
此外,Open-Sora 2.0 还采用了 分层标注方法,针对不同分辨率的视频数据使用不同的标注模型,确保训练数据的语义一致性。
模型架构
Open-Sora 2.0 的核心架构包括 三维自编码器(Video DC-AE) 和 扩散变换器(DiT)。
-
三维自编码器(Video DC-AE):Open-Sora 2.0 采用高压缩比的 Video DC-AE,将视频压缩到 8×8×8 的潜空间,显著减少了生成过程中需要处理的 token 数量。与传统的 HunyuanVideo VAE(4×8×8 压缩比)相比,Video DC-AE 在保持高重建质量的同时,大幅降低了计算成本。架构见图 5。
- 训练结果:Video DC-AE 在重建质量上与 HunyuanVideo VAE 相当,但在训练和推理速度上分别提升了 5.2倍 和 10倍。见 表 1。
-
扩散变换器(DiT):Open-Sora 2.0 的扩散变换器采用全注意力机制,结合 3D RoPE(旋转位置嵌入)以更好地捕捉视频中的时空信息。此外,模型还引入了 双流和单流处理模块,分别处理文本和视频信息,以提高跨模态交互的效率。架构见图 6。
训练策略
Open-Sora 2.0 的训练策略围绕 低成本高效训练 展开,主要包括以下几点:
-
分阶段训练:训练分为三个阶段:
-
第一阶段:在 256px 分辨率 的视频上训练文本到视频(T2V)模型。
-
第二阶段:在 256px 分辨率 的视频上训练图像到视频(I2V)模型。
-
第三阶段:在 768px 分辨率 的视频上微调 I2V 模型。
-
-
高效训练方法:通过 多桶训练机制 处理不同分辨率和帧数的视频,最大化 GPU 利用率。此外,Open-Sora 2.0 还采用了 激活检查点技术 和 自动恢复机制,进一步优化训练效率。
-
成本对比:与 MovieGen 和 Step-Video-T2V 等模型相比,Open-Sora 2.0 的训练成本降低了 5-10倍。见表 4。
条件生成与控制
Open-Sora 2.0 支持 文本到视频(T2V) 和 图像到视频(I2V) 生成,并引入了 运动评分 作为可控参数,允许用户在生成视频时调节运动强度。这种设计不仅提高了生成视频的多样性,还增强了用户对生成内容的控制能力。
性能表现
Open-Sora 2.0 在 VBench 评测中表现出色,与 OpenAI 的 Sora 模型的性能差距从 4.52% 缩小到 0.69%。此外,Open-Sora 2.0 在用户偏好测试中也展现了卓越的性能,尤其是在 视觉质量 和 运动质量 方面。用户偏好测试结果见图 1。
GitHub 开源仓库:https://github.com/hpcaitech/Open-Sora
技术报告:https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf