中国视频生成重大突破,Open-Sora2.0低成本崛起

 人工智能咨询培训老师叶梓 转载标明出处

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。

1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987

想快速掌握自动编程技术吗?叶老师专业培训来啦!这里用Cline把自然语言变代码,再靠DeepSeek生成逻辑严谨、注释清晰的优质代码。4月12日,叶梓老师将在视频号上直播分享《用deepseek实现自动编程》。

视频号(直播分享):sphuYAMr0pGTk27  抖音号:44185842659


Open-Sora 2.0 是一款仅用 20万美元 成本训练出的商业级视频生成模型,参数规模达到 110亿。该模型在权威评测 VBench 中表现出色,与 OpenAI 的 Sora 等顶尖模型的性能差距大幅缩小,几乎追平。Open-Sora 2.0 的开源性进一步推动了视频生成技术的普及和创新。


数据策略

Open-Sora 2.0 的数据策略围绕构建 分层数据金字塔 展开,通过多级过滤系统从海量原始视频中筛选出高质量的训练数据。具体来说,数据处理分为预处理和评分过滤两个阶段:

  1. 预处理:将原始视频转换为适合训练的短片段,去除损坏文件和不符合格式要求的视频(如时长小于2秒、帧率低于16fps等)。通过镜头检测技术,将视频分割为独立片段,并确保输出片段符合特定格式要求。相关流程见图 2 的数据过滤系统示意图。

  2. 评分过滤:通过一系列评分过滤器进一步提升数据质量。这些过滤器包括美学评分、运动评分、模糊检测和OCR检测等。过滤器的评分机制和效果见表 1。

此外,Open-Sora 2.0 还采用了 分层标注方法,针对不同分辨率的视频数据使用不同的标注模型,确保训练数据的语义一致性。


模型架构

Open-Sora 2.0 的核心架构包括 三维自编码器(Video DC-AE) 和 扩散变换器(DiT)。

  1. 三维自编码器(Video DC-AE):Open-Sora 2.0 采用高压缩比的 Video DC-AE,将视频压缩到 8×8×8 的潜空间,显著减少了生成过程中需要处理的 token 数量。与传统的 HunyuanVideo VAE(4×8×8 压缩比)相比,Video DC-AE 在保持高重建质量的同时,大幅降低了计算成本。架构见图 5。

  • 训练结果:Video DC-AE 在重建质量上与 HunyuanVideo VAE 相当,但在训练和推理速度上分别提升了 5.2倍 和 10倍。见 表 1。
  1. 扩散变换器(DiT):Open-Sora 2.0 的扩散变换器采用全注意力机制,结合 3D RoPE(旋转位置嵌入)以更好地捕捉视频中的时空信息。此外,模型还引入了 双流和单流处理模块,分别处理文本和视频信息,以提高跨模态交互的效率。架构见图 6。


训练策略

Open-Sora 2.0 的训练策略围绕 低成本高效训练 展开,主要包括以下几点:

  1. 分阶段训练:训练分为三个阶段:

    • 第一阶段:在 256px 分辨率 的视频上训练文本到视频(T2V)模型。

    • 第二阶段:在 256px 分辨率 的视频上训练图像到视频(I2V)模型。

    • 第三阶段:在 768px 分辨率 的视频上微调 I2V 模型。

  2. 高效训练方法:通过 多桶训练机制 处理不同分辨率和帧数的视频,最大化 GPU 利用率。此外,Open-Sora 2.0 还采用了 激活检查点技术 和 自动恢复机制,进一步优化训练效率。

  3. 成本对比:与 MovieGen 和 Step-Video-T2V 等模型相比,Open-Sora 2.0 的训练成本降低了 5-10倍。见表 4。


条件生成与控制

Open-Sora 2.0 支持 文本到视频(T2V) 和 图像到视频(I2V) 生成,并引入了 运动评分 作为可控参数,允许用户在生成视频时调节运动强度。这种设计不仅提高了生成视频的多样性,还增强了用户对生成内容的控制能力。


性能表现

Open-Sora 2.0 在 VBench 评测中表现出色,与 OpenAI 的 Sora 模型的性能差距从 4.52% 缩小到 0.69%。此外,Open-Sora 2.0 在用户偏好测试中也展现了卓越的性能,尤其是在 视觉质量 和 运动质量 方面。用户偏好测试结果见图 1。

GitHub 开源仓库:https://github.com/hpcaitech/Open-Sora

技术报告:https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值