在空间智能领域,一个核心挑战是:如何让机器不仅理解当前的三维环境,还能预测未来的变化? 最近,一个名为 TesserAct 的开源项目在 Hugging Face 上发布,提出了一个创新性的解决方案——构建4D具身世界模型(4D Embodied World Models)。它不仅能够从图像和指令中重建三维场景,还能以时间维度进行动态演化,为机器人感知、动作预测与交互系统带来了新的可能性。
一、什么是 TesserAct?
TesserAct 是一种新型的空间-时间建模方法,旨在构建一个包含三维空间结构 + 时间维度演化的世界模型。其核心目标是:
让AI不仅能“看到现在”,还能“推测未来”。
核心输入输出
- 输入:一张图像 + 一句文字指令(如“用机器人捡起杯子”)
- 输出:一段视频,包含:
- RGB 图像(颜色信息)
- 深度图(物体与摄像头的距离)
- 法线图(表面方向)
通过这三个通道的信息,TesserAct 能够重建一个