本文来源公众号“码科智能”,仅用于学术分享,侵权删,干货满满。
原文链接:视频分割也行了!Meta“分割一切AI”二代SAM2:模型代码、权重以及数据集通通开源!
Meta“分割一切AI”二代SAM2的诞生代表了领域内的一次重大进步。
相较于上一代,它的能力从图像分割拓展到视频分割。为静态图像和动态视频内容提供实时、可提示的对象分割,将图像和视频分割功能统一到一个强大的系统中。
并且可实时处理任意长视频,视频中没见过的对象也能轻松分割追踪,无需自定义适配。。
SAM2 效果展示
Meta 多次强调了最新模型 SAM 2 是首个用于实时、可提示的图像和视频对象分割的统一模型,它使视频分割体验发生了重大变化,并可在图像和视频应用程序中无缝使用。目前,Meta 已经提供了一个 Web 的演示体验地址:
https://sam2.metademolab.com/demo
SAM 2 可立即应用于各种各样的实际用例 - 例如,跟踪对象(左)或分割显微镜捕获的视频中的移动细胞以辅助科学研究(右)。
未来,SAM 2 可以作为更大型 AI 系统的一部分,通过 AR 眼镜识别日常物品,并向用户提供提醒和说明。
构建 SAM 2
SAM2的核心思路是将图像视作单帧视频,因此可以从SAM直接扩展至视频领域,同时支持图像和视频输入。与用于 SAM 的方法类似,Meta 对视频分割功能的研究涉及设计新任务、模型和数据集。
-
开发了可提示的(promptable)视觉分割任务
-
设计了一个能够执行该任务的模型 —— SAM 2
-
视频对象分割数据集 ——SA-V,该数据集比当前存在的任何数据集大一个数量级。
处理视频唯一的区别在于,模型需要依赖内存来回忆处理过的信息,以便在当前时间步长上准确分割对象。与图像分割相比,视频分割中,物体的运动、变形、遮挡和光线等都会发生强烈变化。同时分割视频中的对象需要了解实体跨越空间和时间的位置。
SAM2根据输入提示对当前帧上的掩码进行即时预测,并进行临时传播,在所有帧上都可生成目标对象的掩码。一旦预测到初始掩码,就可以通过任何帧中向SAM2提供额外提示来进行迭代改进,它可以根据需要重复多次,直到获取到所有掩码。
为了准确预测所有视频帧的掩码,研究团队引入了一种由记忆编码器、记忆库(memory bank)和记忆注意力模块组成的记忆机制。当应用于图像时,内存组件为空,模型的行为类似于 SAM。对于视频,记忆组件能够存储关于该会话中的对象和先前用户交互的信息,从而允许 SAM 2 在整个视频中生成 masklet 预测。如果在其他帧上提供了额外的提示,SAM 2 可以根据对象存储的记忆上下文有效地纠正其预测。
SA-V 数据集
借助 SAM 2,收集新的视频对象分割掩码比以往更快,比每帧使用 SAM 快约 8.4 倍。此外,Meta 发布的 SA-V 数据集的注释数量是现有视频对象分割数据集的十倍以上,视频数量大约是其 4.5 倍。
-
在大约 51,000 个视频中有超过 600,000 个 masklet 注释;
-
视频展示了地理上不同的真实场景,收集自 47 个国家;
-
覆盖整个对象、对象中的一部分,以及在物体被遮挡、消失和重新出现的情况下具有挑战性的实例。
来自 SA-V 数据集的视频和掩码注释。
解决过度分割、超越SOTA
下方两个模型都是用第一帧中的 T 恤蒙版初始化的。对于 baseline,Meta 使用来自 SAM 的蒙版,问题是过度分割并包括人的头部,而不是仅跟踪 T 恤。相比之下,SAM 2 能够在整个视频中准确跟踪对象部分。
为了创建统一的图像和视频分割模型,Meta 将图像视为单帧视频,在图像和视频数据上联合训练 SAM 2。团队利用了去年作为 Segment Anything 项目的一部分发布的 SA-1B 图像数据集、SA-V 数据集以及额外的内部许可视频数据集。
SAM 2(右)提高了 SAM(左)图像中的对象分割精度。
参考链接:
[1]https://ai.meta.com/blog/segment-anything-2/
[2]https://x.com/swyx/status/1818074658299855262
[3]https://ai.meta.com/blog/segment-anything-2-video/
THE END !
文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。