腾讯混元视频生成工具全新开源

今天,我们正式推出并开源全新的多模态定制化视频生成工具HunyuanCustom。

该模型基于混元视频生成大模型(HunyuanVideo)打造,在主体一致性效果超过现有的开源方案。

HunyuanCustom融合了文本、图像、音频、视频等多模态输入生视频的能力,是一款具备高度控制力和生成质量的智能视频创作工具。

HunyuanCustom模型能实现单主体视频生成、多主体视频生成、单主体视频配音、视频局部编辑等能力,其生成的视频与用户输入的参考主体能保持高度一致。其中,单主体生成能力已经开源并在混元官网(https://hunyuan.tencent.com/)上线,用户可以在“模型广场-图生视频-参考生视频”中体验,其他能力将于5月内陆续对外开源。

有了HunyuanCustom,用户只需上传一张包含目标人物或物体的图片,并提供一句文本描述(例如“他正在遛狗”),HunyuanCustom 就能识别出图片中的身份信息,并在完全不同的动作、服饰与场景中生成连贯自然的视频内容。

除了单主体以外,这个能力同样能实现多主体视频的生成,用户提供一张人物和一张物体的照片(比如一包薯片和一名男子的照片),并输入文字描述(比如“一名男子正在游泳池旁边,手里拿着薯片进行展示”),即可能让这两个主体按要求出现在视频里。 

此外,HunyuanCustom 不止于图像和文本的配合,还具备强大的扩展能力。在音频驱动(单主体)模式下,用户可以上传人物图像并配上音频语音,模型便可生成人物在任意场景中说话、唱歌或进行其他音视频同步表演的效果,广泛适用于数字人直播、虚拟客服、教育演示等场景。

在视频驱动模式下,HunyuanCustom 支持将图片中的人物或物体自然地替换或插入到任意视频片段中,进行创意植入或场景扩展,轻松实现视频重构与内容增强。

此前大部分的视频生成模型主要能实现文生视频和图生视频。文生视频每次均根据本文提示词重新生成,很难持续保持人物和场景的一致性。而图像生成视频模型主要实现的是“让图片动起来”。例如,上传一张人物照片,最终生成的视频通常只能在照片的原始服饰、姿态和场景下做出一些固定表情或动作,服装、背景和姿态几乎无法修改。

但在部分场景下,创作者希望保持人物一致的情况下,改变人物所在的环境和动作。此前的视频生成模型无法实现,多模态视频生成模型HunyuanCustom则可以很好地满足创作者的需求,通过引入身份增强机制和多模态融合模块,真正实现了“图像提供身份,文本定义一切”。

HunyuanCustom可以满足视频创作者、短视频博主、电商从业者、广告创意人等不同用户和场景的需求。比如,在广告场景中,可以快捷变换商品背景、模特可以快速换衣服;在电商和客服场景中,可以快速低成本制作出生动的数字人商品介绍视频,或者制作特定穿着的数字人客服视频;在影视场景中,快速制作短剧和小故事短视频。

HunyuanCustom 在“可控性”和“一致性”上表现出色。“可控性”指HunyuanCustom具有较强的控制信号跟随能力,包括遵循来自文本、参考主体图像和语音等多种模态信号的控制,可较好地生成用户需要对象、场景和动作。这主要得益于混元强大的多模态理解与文本驱动机制。通过业内领先的主体一致性建模能力,HunyuanCustom 在单人、非人物体、多主体交互等多种场景,都能保持身份特征在视频全程的一致性与连贯性。人物不会“变脸”,物体不会“漂移”。

同时,HunyuanCustom 具备极高的视频生成质量。得益于腾讯混元视频大模型的强大能力,该模型在人物细节还原、动作流畅性、光影真实度等方面都达到业内领先水平。无论是生成虚拟数字人、打造品牌广告视频,还是进行创意视觉表达,HunyuanCustom都能提供高水准输出。

更多的技术细节,欢迎查阅开源项目官网以及官方技术报告《HunyuanCustom: a multimodal-driven architecture for customized video generation》。

【项目相关链接】

  • 体验入口:https://hunyuan.tencent.com/modelSquare/home/play?modelId=192(或点击文末阅读原文)

  • 项目官网:

    https://hunyuancustom.github.io/

  • 代码:

    https://github.com/Tencent/HunyuanCustom

  • 技术报告:

    https://arxiv.org/pdf/2505.04512

### 下载混元大模型完整版与 ComfyUI 相关文件 为了下载并配置腾讯发布的 Huanyuan 大型视频生成模型以配合 ComfyUI 使用,需遵循特定流程。此过程涉及获取模型权重、设置环境以及集成至 ComfyUI 平台。 #### 获取模型权重 由于官方并未提供直接链接来下载完整的 Huanyuan 模型,建议访问项目主页或 GitHub 仓库寻找最新的发布版本[^1]。通常情况下,大型开源项目的发布页面会有详细的说明文档指导如何下载所需资源。 对于具体操作命令,在大多数情形下可以采用如下形式: ```bash git clone https://github.com/Tencent/Huanyuan.git cd Huanyuan pip install -r requirements.txt ``` 这些指令会克隆仓库并将依赖项安装到位。不过请注意实际路径和命令可能会有所变化,取决于开发者维护的具体情况。 #### 设置运行环境 考虑到模型训练过程中采用了混合精度训练方法,并且支持多种硬件加速器,确保本地开发环境中已正确安装 CUDA 和 cuDNN 是必要的。此外,还需确认 Python 版本兼容性,一般推荐使用虚拟环境管理工具如 `conda` 或者 `venv` 来创建独立的工作空间。 #### 集成到 ComfyUI 为了让 Huanyuan 模型能够在 ComfyUI 中正常工作,可能需要做一些额外的努力来进行接口适配。这包括但不限于调整输入输出格式使之匹配 UI 组件的要求;编写自定义脚本来处理数据流控制逻辑等。 如果遇到任何关于 ARM 架构下的软件包缺失问题,则可能是目标平台不被当前发行渠道所覆盖所致[^2]。此时应当考虑切换至其他更适合该架构的支持源或者寻求社区帮助以获得更广泛的解决方案。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值