Transformer劲敌变队友?腾讯、英伟达都在用的Mamba-Transformer混合架构要火!

Transformer“单打独斗”的时代要结束了?Mamba-Transformer强势来袭!

Transformer“单打独斗”的时代要结束了?

在过去的一两年里,Transformer架构一直是AI大模型领域的“霸主”,但它也面临着来自新兴架构的不断挑战。

在众多“挑战者”中,Mamba无疑是最受瞩目的一个。

然而,最近的风向似乎变了。Mamba和Transformer不再是“水火不容”的竞争对手,而是开始走向融合,携手打造更强大的AI模型!

腾讯、英伟达纷纷押注Mamba-Transformer混合架构

英伟达纷纷押注

上周,腾讯推出了自研的深度思考模型“混元T1”,这款模型不仅能“秒回”消息,还能快速处理超长文本,推理能力也相当强悍。

而“混元T1”之所以这么厉害,很大程度上要归功于它采用了Hybrid-Mamba-Transformer融合架构

这种架构有效降低了传统Transformer架构的计算复杂度,减少了内存占用,从而显著降低了训练和推理成本,让“混元T1”实现了“首字秒出”,吐字速度最快可达80 token/s!

无独有偶,英伟达也推出了一个采用Mamba-Transformer混合架构的模型家族——Nemotron-H

Nemotron-H的速度是同等规模的纯Transformer模型的三倍!而且,47B版本的Nemotron-H,甚至可以在单张消费级的NVIDIA RTX 5090 GPU上,以FP4精度支持100万token长度的上下文推理!

腾讯、英伟达等科技巨头纷纷押注Mamba-Transformer混合架构,这释放出一个强烈的信号:这种架构大有可为!

Mamba-Transformer:强强联手,优势互补

Mamba-Transformer:强强联手,优势互补

Mamba-Transformer混合架构,顾名思义,就是将Mamba和Transformer两种架构结合起来。

  • Transformer:大家都很熟悉了,它是以自注意力机制为核心的深度学习模型,能够捕捉输入序列中各个元素之间的复杂关系。
  • Mamba:一种状态空间模型(SSM),它在捕获序列数据中的复杂依赖关系方面表现出色,而且计算成本更低。

Mamba-Transformer混合架构,可以将两者的优势结合起来:

  • Transformer的强大建模能力:擅长处理各种复杂的NLP任务。
  • Mamba的高效性:擅长处理长序列数据,计算成本更低。

常见的Mamba-Transformer混合方式有两种:

  1. 层级混合:在模型的不同层级分别使用Mamba和Transformer。
  2. 序列级混合:在处理序列的不同部分时,分别使用Mamba和Transformer。

Mamba-Transformer混合架构模型盘点

除了腾讯的“混元T1”和英伟达的Nemotron-H,还有哪些Mamba-Transformer混合架构模型呢?

滑铁卢大学计算机科学助理教授陈文虎(Wenhu Chen)最近盘点了几个,让我们一起来看看:

1. Nemotron-H(英伟达)
  • 特点:速度快(高达同类模型的3倍),支持超长上下文推理(47B版本可在单张RTX 5090 GPU上支持100万token)。
  • 应用:英伟达近期发布的用于物理AI的强大VLM模型Cosmos-Reason 1的骨干网络。
2. Hunyuan-Turbo-S和Hunyuan-T1(腾讯)
  • 特点:推理能力强,擅长处理超长文本,吐字速度快(最快可达80 token/s)。
  • 应用:在MMLU-PRO等基准测试中表现出色,已在腾讯云上线。
3. STORM(英伟达)
  • 特点:基于视频的多模态大语言模型(Video-LLM),擅长处理长视频,时间推理能力强。
  • 应用:在长视频理解任务中表现出色,计算效率高。
4. Vamba(陈文虎团队)
  • 特点:专为长视频理解设计,可以高效处理长达1小时的视频。
  • 应用:在LVBench等小时级视频理解基准测试中表现出色,GPU内存使用量和运行时间减少50%以上。

Mamba-Transformer:AI大模型的未来?

从这些案例可以看出,Mamba-Transformer混合架构已经在推理、多模态等任务中展现出了强大的潜力。

通过合理的设计,Transformer的强大性能可以与Mamba在长上下文和效率方面的优势相结合,为AI大模型带来新的可能性。

未来,Mamba-Transformer混合架构能否成为AI大模型的主流?让我们拭目以待!

AI绘画爱好者的福音!ChatTools 提供Midjourney免费无限生图,更有GPT-4o、Claude 3等众多AI模型等你探索!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值