集智书童 | 西工业/北理工提出 VIVID-10M:一种用于多功能和交互式视频局部编辑的数据集和基线 !

本文来源公众号“集智书童”,仅用于学术分享,侵权删,干货满满。

原文链接:西工业/北理工提出 VIVID-10M:一种用于多功能和交互式视频局部编辑的数据集和基线 !

近年来,基于扩散的图像编辑模型取得了显著进展。然而,实现高质量视频编辑仍然面临巨大挑战。一个主要障碍是缺乏基于真实世界数据的开放式、大规模视频编辑数据集,构建这样的数据集既耗时又耗资。

此外,视频数据需要大量 Token 以进行表示,这大大增加了视频编辑模型的训练成本。

最后,当前的视频编辑模型交互性有限,用户很难在一次尝试中有效表达自己的编辑需求。为解决这些挑战,本文引入了一个名为VIVID-10M的数据集和一个基准模型VIVID。

VIVID-10M是第一个旨在降低数据构建和模型训练成本的大规模混合图像-视频局部编辑数据集,包含970万样本,涵盖广泛的视频编辑任务。VIVID是一个在VIVID-10M上进行训练的可扩展和交互式视频局部编辑模型,支持实体添加、修改和删除。核心是一个基于关键帧的交互式视频编辑机制,使用户可以逐步编辑关键帧并将其传播到其他帧,从而减少实现预期结果的延迟。

大量实验评估表明,作者的方法在视频局部编辑方面实现了最先进的性能,在自动化指标和用户研究中都超过了基准方法。

1 Introduction

近年来,基于扩散模型的图像和视频编辑取得了巨大进步。视频编辑算法,它们根据参考视频和提供的描述生成编辑,通常可以分为两大类:无训练算法和基于训练算法。基于训练算法的通常实现更好的文本对齐和时间一致性。为了实现更精确和可控的视频编辑,局部编辑方法利用 Mask 序列定义编辑区域,从而增强保留背景的能力,即保持不可编辑区域不变。

然而,实现高性能视频本地编辑面临几个挑战。

C1. 缺乏大规模的视频编辑数据集。基于训练的算法需要大量的高质量配对数据。一些算法[5, 23]利用大型语言模型和无训练方法构建合成视频数据集。然而,这种方法无法生成本地编辑数据,从而限制了基于训练的模型的性能,使其受无训练方法的限制。视频本地编辑算法[36, 40]通过视觉感知算法[17, 19, 35]从视频帧中提取 Mask 序列,并将原始视频进行 Mask 以生成配对数据。尽管使用了高质量的实时视频数据,但还没有公开的大规模视频本地编辑任务数据集。构建这样的数据集由于数据处理管线的时空和资源密集需求而具有挑战性。

C2. 高的训练开销。视频编辑模型通常在图像编辑[2]或生成模型[25]中添加时间注意力层[18, 31, 36, 40]。视频数据需要比图像数据更多的 Token 来表示,从而降低了视频编辑模型的训练效率与图像编辑模型的训练效率。

C3. 有限的用户交互性。用户通常很难在一次尝试中完整地表达他们的编辑需求。这需要迭代调整和反馈周期来完善修改,从而在视频编辑过程中延长推理时间。这种缺乏无缝交互性延长了实现预期结果所需的时间。

作者通过利用大量易于构建的图像数据来优化模型的空间建模能力,同时使用视频数据来增强空间-时间建模,来解决挑战C1和C2。为此,作者提出了VIVID-10M,这是一个高质量的视频局部编辑数据集,包含来自73.7K个视频和672.7K个图像的9.7M个样本。每个视频和图像的分辨率都高于720p,视频剪辑至少持续5秒。VIVID-10M是通过一个自动化的流程构建的,该流程包括各种视觉感知模型[19, 24, 29, 35]和多模态大型语言模型[4]。每个样本包括 GT 、 Mask 、 Mask 数据和局部字幕,以便进行添加、删除和修改任务。为了评估VIVID-10M,作者提出了VIVID,这是一个通用且交互式视频局部编辑模型,支持实体添加、删除和修改(见图1)。VIVID是同时训练在图像和视频数据上的,以减少训练开销,与现有方法相比实现了最先进的表现[31, 38, 40]。

为解决挑战C3,作者提出了一种基于关键帧引导的交互式视频编辑机制(KIVE),用户可以通过图像编辑模型快速实现关键帧的编辑,并将满意的结果传播到剩余帧。此外,由于VIVID采用了混合图像和视频训练,因此它也可以在关键帧

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值