『不废话』之大模型训练硬件相关知识点

同事说在听PPT时,经常听到一些英文缩写,很多知识点学得比较散,有没有一个综合但短小精悍的总结,这不来了么。

CPUGPUGPGPU显卡
中央处理单元图像处理单元通用图形处理器GPU≠显卡
计算机大脑,它来统筹所有工作专门做图形和图像相关运算工作的微处理器主要进行非图形相关程序的运算包括GPU、供电、稳压模块、风扇、外围接口等
CPU VS GPU
相同点都是运算处理器,架构组成都包含运算单元ALU、控制单元Control和缓存单元Cache。
差异点

上述三者的比例相差很大,
CPU(25% ALU、25% Control、50% Cache)
GPU(90% ALU、5% Control、5% Cache)

虽然通常我们说GPU时都是指显卡,但在特殊情况下还是要注意两者之间定义的区别。

集成显卡嵌入在CPU旁边,与CPU共享系统内存。
独立显卡以独立板卡出现,通常被链接在PCI高速接口上,使用专用内存,即显存。
消费卡面向游戏娱乐领域,如GeForce RTX 5090等。
专业卡面向专业设计和虚拟化领域,如NVIDIA RTX A6000等。
数据中心卡面向深度学习、人工智能和高性能计算领域,如NVIDIA H800等。
涡轮卡涡轮散热,适合服务器、小机箱用户或多卡并行场景,需接受较高噪音和散热限制。
风扇卡普通开放式散热显卡,适合游戏玩家、创意工作者首选,平衡散热、静音与性能。
公版NVIDIA自己卖。
非公版

OEM厂商自由定制(规则范围内)后卖。

上面这些正好区分了游戏玩家和人工智能玩家不同的关注点。

NV LinkNVIDIA开发的一种互联技术,也指通信的链路。
NV Switch基于NVLink技术的芯片或设备,其中在服务器内部的NV Switch就是芯片,跨服务器互联就是搭载芯片的NV Swtich设备。
PCIE接口计算机系统的通用接口,通用性强,更灵活。
SXM(Scalable eXtensible Module)接口

NVIDIA高端GPU的专用接口。

李沐大神的视频:

安静、高性价比双卡装机【100亿模型计划】_哔哩哔哩_bilibili 环境安装,BERT、GPT、T5 性能测试,和横向对比【100亿模型计划】_哔哩哔哩_bilibili

如果需要训练大模型,上面的这些知识点要了解下,因为哪怕是从机械硬盘切换到固态硬盘也会让你的训练时间降低一个数量级。

HGX(如HGX H100)GPU模组,通常把8张H100 SXM、NV Switch组合成一起,逻辑上就是一个大的GPU 。
DGX(如DGX H100)将HGX、机箱、主板、CPU、内存、硬盘等一起打包,形成一体化解决方案。

H100参数

HGX B300 示意图

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值