linux下gpu降速问题排查

今天在告警信息中查看到了hardware slow_down DA:00.0,第一反应是硬件降速了,对于目前集群情况来说第一时间想到的就是GPU降速

我们可以根据提供的bus_id进行检查看看是什么设备

lspci | grep DA:00.0

可以明显看到是GPU,那我们接下来可以看看是哪张卡降速了

nvidia-smi -q

202512141432549339831051.png

我们翻到DA:00.0这张卡可以看到了硬件降速,12866740653 us约等于3.57小时,这样就从GPU记录的信息来看,该GPU历史上确实发生过热降速,累计约3.57小时。

另外顺便列举下GPU降速类型有以下几种

降速类型原因解决方案
HW Thermal Slowdown温度过高1. 检查散热系统
2. 清理风扇和散热片
3. 改善机柜通风
4. 降低环境温度
HW Power Brake Slowdown功耗超限1. 检查电源供应
2. 降低GPU功耗限制
3. 优化应用负载
SW Thermal Slowdown软件温控1. 检查驱动温控设置
2. 调整温度阈值

根据上述列举我们是温度过高导致的降速,根据对应的解决方案实施再进行观察下。

然后查看GPU是否降频,我们也需要进行检查下

nvidia-smi -i 0 --query-gpu=index,utilization.gpu,temperature.gpu,power.draw,clocks.gr,clocks.mem,clocks_throttle_reasons.hw_slowdown,clocks_throttle_reasons.hw_thermal_slowdown,clocks_throttle_reasons.sw_power_cap,clocks_throttle_reasons.hw_power_brake_slowdown,clocks_throttle_reasons.gpu_idle,clocks_throttle_reasons.applications_clocks_setting --format=csv -lms 1

同时也需要确保GPU的当前的性能模式是P0

nvidia-smi -q | grep 'Performance State'

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://sulao.cn/post/1153

评论列表

0%