ABSTRACT摘要
本文主要介绍英伟达H100常见的故障类型和问题。
国家政府报告提出要持续推进“人工智能+”行动,大力发展人工智能行业,市场上对算力的需求持续上涨,英伟达H100 GPU凭借其强大的算力,成为AI训练、高性能计算领域的核心硬件。然而,随着使用场景的复杂化,H100服务器故障率也逐渐攀升,轻则影响业务进度,重则造成巨额损失。
今天,我们就来聊聊H100的常见故障类型问题。
一、HBM3 高带宽内存故障
H100在高负载、大规模集群运行环境下容易出现HBM3 高带宽内存故障问题,具体表现在以下几个方面:
1.性能下降方面
计算任务时长增加:在运行复杂的深度学习模型训练、高性能计算(如科学计算、数据分析等)任务时,计算速度会明显变慢。比如原本预计数小时完成的模型训练任务,可能拖延至数倍时长仍无法完成。这是因为 HBM3 内存负责高速存储和读取大量数据,故障会阻碍数据的顺畅传递,导致 GPU 计算单元等待数据时间增多,整体计算效率大幅降低。
多任务并行能力受限:H100 本擅长并行处理多任务,内存故障时,同时运行多个计算任务会出现频繁卡顿,甚至部分任务无法正常启动或中途报错终止。这源于内存无法稳定、快速地为各任务分配和交换所需数据,影响了 GPU 对多任务的协调处理。
系统与软件层面
系统报错频繁:服务器在启动、运行过程中会频繁报错,错误信息多与内存相关,如 “HBM3 memory failure”“memory access error” 等。操作系统日志中也会充斥大量内存校验失败、数据不一致的记录,这反映出内存读写异常,数据完整性受损。
软件崩溃:依赖 GPU 加速的软件(如深度学习框架 TensorFlow、PyTorch 等)容易出现崩溃、闪退现象,尤其是在处理大规模数据集或复杂网络架构时。故障内存提供的错误数据会引发软件内部逻辑错误,进而导致程序无法正常执行。
任务结果错误:完成的计算任务结果出现明显偏差,如深度学习模型预测准确率大幅下降、科学计算得到错误的数值结果等。这是因为内存故障致使部分数据读取错误或写入失败,最终影响计算输出。
硬件诊断工具报警:使用英伟达提供的硬件诊断工具(如 NVIDIA DCGM - Data Center GPU Manager)检测时,会明确提示 HBM3 内存存在故障,包括内存带宽利用率异常、错误计数增加等警告信息,提醒管理员进行硬件排查与维修。
二、NVLink 连接问题H100依赖NVLink 4.0进行GPU间高速通信,在高负载、大规模集群运行环境下,NVLink接口或桥接器可能出连接不稳定或信号错误。具体表现在:
1.软件工具检测结果异常
通过 【nvidia-smi topo -m】命令查看 GPU 拓扑结构时,会发现 GPU 之间没有 NVLink 连接显示为 “NODE”,正常连接下应显示为 “NV1” 或 “NV2” 等。使用 【nvidia-smi nvlink --status】命令检查 NVLink 连接状态,若连接有问题,会显示链接处于非活动状态或出现错误,如 “Link X: Y GB/s - Inactive”。
2.系统日志报错信息
系统日志中可能记录有 NVLink 相关的错误信息。例如,出现 “DOE(Data Object Exchange)timeout errors”,即数据对象交换超时错误,像 “pci 000000.0: DOE: [2c8] ABORT timed out” 这样的报错信息。还可能有类似 “received NVLink inband message arrived on an NVLink port NodeId X NVSwitch Y port Z which is not part of any active partition” 的错误提示。
3.性能表现不佳
数据传输速度明显下降,在多 GPU 协作任务中,如深度学习模型训练、大规模数据分析等,数据传输速率低于预期,影响整体计算效率。多 GPU 应用程序频繁报错,由于 NVLink 连接不稳定,导致数据传输中断或出现错误,使得依赖 GPU 协作的应用程序无法正常运行,出现报错、闪退等现象。
4.其他异常情况
多 GPU 并行计算任务中,可能出现任务启动失败、执行过程中断或计算结果错误的情况,这是因为 NVLink 连接出现问题后,GPU 之间无法正常通信和协作,导致任务无法顺利进行。同时,使用 nvidia-smi 命令查看 GPU 状态时,可能没有 MIG 实例或活跃的 NVLink 显示。
三、GPU核心过热或电源问题
(一)GPU 核心过热表现
1.散热与冷却系统方面
风扇异常 :机箱内 GPU 风扇转速明显加快,机箱风扇也快速转动,但温度依旧持续升高,甚至可能出现风扇故障报警,如通过 BMC 仪表盘查看到风扇转速异常。
散热器温度高 :用手触摸 GPU 散热器或其附近的金属部件,会感觉异常烫手。
机箱内温度上升 :机箱内的整体温度明显高于正常水平,可能导致其他硬件设备也出现过热现象。
2.性能与任务执行方面
计算性能下降 :GPU 计算速度减慢,执行深度学习模型训练、科学计算等任务时,速度明显低于正常状态,任务完成时间大幅延长。
任务中断或失败 :在运行高负载任务时,可能会出现 GPU 热保护机制触发,导致任务中断、报错甚至整个系统崩溃,如在运行 CUDA 程序时提示 “CUDA error: device-side assertion failed” 等错误信息。
无法稳定运行 :系统可能出现频繁的自动重启、死机等现象,尤其在长时间高负载运行后更为明显。
3.系统监控与日志方面
温度监控工具报警 :通过 nvidia-smi 等工具查看 GPU 温度时,会发现温度持续超过正常范围,如在正常负载下温度超过 90°C(H100 的正常温度范围一般在 0°C 至 90°C 之间,但具体取决于具体应用场景和散热条件)。
硬件错误日志 :系统硬件错误日志中会出现与 GPU 过热相关的警告或错误信息,如 “Hardware Error: Hardware error from APEI Generic Hardware Error Source” 等类似的报错信息。
(二)电源问题表现
1.系统指示灯方面
电源指示灯异常 :系统电源指示灯闪烁或不亮,或出现与正常状态不同的颜色显示,如从正常的绿色变为黄色或红色。
其他指示灯异常 :机箱上的硬盘指示灯、网络指示灯等可能也会出现闪烁或异常状态,表明系统电源供应不稳定。
2.系统运行方面
突然断电或重启 :系统在正常运行过程中突然断电或自动重启,且无明显规律,这可能是由于电源供应不稳定导致的。
性能下降 :系统整体性能出现下降,如计算速度变慢、数据读写速度降低等,这可能是由于电源无法提供足够的电力支持硬件设备的正常运行。
无法正常开机 :按下电源按钮后,系统无法正常启动,或者启动过程中出现卡顿、停止响应等情况。
3.系统监控与日志方面
电源监控工具报警 :通过 nvsm 命令或 BMC 网页用户界面查看电源状态时,会发现电源健康状态显示为非正常,如 “Status_Health=Warning” 或 “Status_Health=Critical”。
日志记录电源错误 :系统日志或电源监控日志中会出现与电源相关的错误信息,如 “ipmitool sdr | grep -i psu” 命令查看到的电源输出读数接近于零或无温度读数。
以上就是H100常见的故障问题。
如果您的H100出现了故障,推荐你来深圳这家GPU维修工作室。
-
gpu
+关注
关注
28文章
4976浏览量
132029 -
英伟达
+关注
关注
22文章
3966浏览量
94305 -
H100
+关注
关注
0文章
33浏览量
458
发布评论请先 登录
英伟达a100和h100哪个强?英伟达A100和H100的区别
英伟达发布新一代 GPU 架构图灵和 GPU 系列 Quadro RTX
NVIDIA发布最新Hopper架构的H100系列GPU和Grace CPU超级芯片
关于NVIDIA H100 GPU的问题解答
三星正与英伟达开展GPU HBM3验证及先进封装服务
生成式人工智能推动,传英伟达今年将销售55万个H100 GPU
MI300X能否与H100一较高下?

英伟达特供版芯片将上市:性能最高不到H100的20%

英伟达发布新一代H200,搭载HBM3e,推理速度是H100两倍!

评论