ICCV 2025 | TesserAct: 首个通用4D世界模型

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

3D视觉工坊很荣幸邀请到马萨诸塞大学阿默斯特分校博士生甄昊宇,为大家着重分享他们团队的工作:TesserAct。如果您有相关工作需要分享,欢迎文末联系我们。

TesserAct: Learning 4D Embodied World Models
论文https://arxiv.org/abs/2504.20995
主页https://tesseractworld.github.io
代码https://github.com/UMass-Embodied-AGI/TesserAct

直播信息

时间

2025年06月30日(周一)10:30

主题

ICCV 2025 | TesserAct: 首个通用4D世界模型

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播,或前往B站搜索3D视觉工坊观看直播

3D视觉工坊视频号也将同步直播

主讲嘉宾

甄昊宇
马萨诸塞大学阿默斯特分校博士生

马萨诸塞大学阿默斯特分校博士生,师从Chuang Gan教授,与Yilun Du教授合作开展研究。研究方向聚焦于具身智能、3D/4D世界模型与通用感知模型。他是TesserAct、3D-VLA、3D-LLM等工作的主要作者,论文发表于NeurIPS、ICML、ICCV等国际顶会。本科毕业于上海交通大学人工智能专业,期间曾在MIT等机构访问交流,实习于NVIDIA与Meshy。

个人主页https://haoyuzhen.com/

直播大纲

TesserAct 是我们提出的首个通用四维具身世界模型,可从图像与指令出发,生成具有物理一致性的 RGB、深度(Depth)与法线(Normal)视频,重建具身环境中的动态场景,并指导机器人完成复杂操作。它不仅仅是视频生成,更是一个时空一致的四维场景,帮助机器人理解场景、预见未来、学习策略。

  1. 3D/4D基础模型研究动机

  2. 人类行为启发3DLLM、3DVLA如何与世界交互

  3. 世界模型定义

  4. TeaserAct 4D世界模型架构

  5. TeaserAct 能力与潜在应用

  6. 当前模型的局限性

  7. 未来后续工作

参与方式

:3D视觉工坊很荣幸邀请到马萨诸塞大学阿默斯特分校博士生甄昊宇,为大家着重分享他们团队的工作:TesserAct。如果您有相关工作需要分享,欢迎联系微信:cv3d009 请备注:直播宣传,则不予通过。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值