中国视频生成重大突破，Open-Sora2.0低成本崛起-CSDN博客

本文链接：https://blog.csdn.net/weixin_44292902/article/details/146242216

人工智能咨询培训老师叶梓转载标明出处

想要掌握如何将大模型的力量发挥到极致吗？叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具（限时免费）。

1小时实战课程，您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型，以发挥其最大潜力。

CSDN教学平台录播地址：https://edu.csdn.net/course/detail/39987

想快速掌握自动编程技术吗？叶老师专业培训来啦！这里用Cline把自然语言变代码，再靠DeepSeek生成逻辑严谨、注释清晰的优质代码。4月12日，叶梓老师将在视频号上直播分享《用deepseek实现自动编程》。

视频号（直播分享）：sphuYAMr0pGTk27 抖音号：44185842659

Open-Sora 2.0 是一款仅用 20万美元成本训练出的商业级视频生成模型，参数规模达到 110亿。该模型在权威评测 VBench 中表现出色，与 OpenAI 的 Sora 等顶尖模型的性能差距大幅缩小，几乎追平。Open-Sora 2.0 的开源性进一步推动了视频生成技术的普及和创新。

数据策略

Open-Sora 2.0 的数据策略围绕构建分层数据金字塔展开，通过多级过滤系统从海量原始视频中筛选出高质量的训练数据。具体来说，数据处理分为预处理和评分过滤两个阶段：

预处理：将原始视频转换为适合训练的短片段，去除损坏文件和不符合格式要求的视频（如时长小于2秒、帧率低于16fps等）。通过镜头检测技术，将视频分割为独立片段，并确保输出片段符合特定格式要求。相关流程见图 2 的数据过滤系统示意图。
评分过滤：通过一系列评分过滤器进一步提升数据质量。这些过滤器包括美学评分、运动评分、模糊检测和OCR检测等。过滤器的评分机制和效果见表 1。

此外，Open-Sora 2.0 还采用了分层标注方法，针对不同分辨率的视频数据使用不同的标注模型，确保训练数据的语义一致性。

模型架构

Open-Sora 2.0 的核心架构包括三维自编码器（Video DC-AE）和扩散变换器（DiT）。

三维自编码器（Video DC-AE）：Open-Sora 2.0 采用高压缩比的 Video DC-AE，将视频压缩到 8×8×8 的潜空间，显著减少了生成过程中需要处理的 token 数量。与传统的 HunyuanVideo VAE（4×8×8 压缩比）相比，Video DC-AE 在保持高重建质量的同时，大幅降低了计算成本。架构见图 5。

训练结果：Video DC-AE 在重建质量上与 HunyuanVideo VAE 相当，但在训练和推理速度上分别提升了 5.2倍和 10倍。见表 1。

扩散变换器（DiT）：Open-Sora 2.0 的扩散变换器采用全注意力机制，结合 3D RoPE（旋转位置嵌入）以更好地捕捉视频中的时空信息。此外，模型还引入了双流和单流处理模块，分别处理文本和视频信息，以提高跨模态交互的效率。架构见图 6。

训练策略

Open-Sora 2.0 的训练策略围绕低成本高效训练展开，主要包括以下几点：

分阶段训练：训练分为三个阶段：
- 第一阶段：在 256px 分辨率的视频上训练文本到视频（T2V）模型。
- 第二阶段：在 256px 分辨率的视频上训练图像到视频（I2V）模型。
- 第三阶段：在 768px 分辨率的视频上微调 I2V 模型。
高效训练方法：通过多桶训练机制处理不同分辨率和帧数的视频，最大化 GPU 利用率。此外，Open-Sora 2.0 还采用了激活检查点技术和自动恢复机制，进一步优化训练效率。
成本对比：与 MovieGen 和 Step-Video-T2V 等模型相比，Open-Sora 2.0 的训练成本降低了 5-10倍。见表 4。