OpenAI 文本创建视频模型 Sora 技术报告

本文探讨了如何使用大规模视频数据训练视频生成模型Sora,特别是通过Transformer架构处理时空图像块。Sora展示了生成不同尺寸、时长视频的能力,被视为有潜力的物理世界模拟器。文章还讨论了模型的优点、局限性和未来的发展方向。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原文地址:Video generation models as world simulators

作为世界模拟器的视频生成模型

我们探讨了在大规模视频数据上进行生成模型的训练。具体来说,我们对视频和不同时长、分辨率和宽高比的图像进行文本条件扩散模型的联合训练。我们利用了一种变压器架构,该架构对视频和图像潜在代码的空间时间块进行操作。我们最大的模型Sora能够生成高保真度的视频。我们的结果表明,扩大视频生成模型是一个很有前途的通用物理世界模拟器构建途径。

本技术报告侧重于(1)我们用于将所有类型的视觉数据转换为统一表示的方法,以便对生成模型进行大规模训练,以及(2)对Sora的能力和局限性的定性评估。本报告中不包含模型和实现细节。

许多先前的工作已经使用各种方法研究了视频数据的生成建模,包括递归网络,生成对抗网络,自回归变换器,以及扩散模型。这些工作通常专注于视觉数据的狭窄类别,或者较短的视频,或者固定大小的视频。Sora是一个视觉数据的多面手模型——它可以生成跨越不同时长、宽高比和分辨率的视频和图像,直至一分钟的高清视频。

将视觉数据转换为图像块

我们从大型语言模型中获得灵感,这些模型通过在互联网规模的数据上进行训练获得了多面手的能力。LLM范式成功的一部分原因是使用了令牌(tokens),这些令牌优雅地统一了文本的多样化模态—代码、数学和各种自然语言。在这项工作中,我们考虑了视觉数据的生成模型如何继承这些好处。尽管LLMs有文本令牌,但Sora有视觉图像块(patches)。之前的研究已经表明图像块对于视觉数据模型来说是一种有效的表示。我们发现图像块在训练不同类型视频和图像的生成模型时,是一种高度可扩展且有效的表示。

在较高的层面上,我们首先将视频压缩到一个低维的潜在空间中,然后将这种表示分解为时空图像块。

视频压缩网络

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值