linux下gpu降速问题排查

发布于2025-12-14 14:27:31 更新于2025-12-15 15:35:27
运维
浏览 250
shevechco
手机浏览
评论数 0

今天在告警信息中查看到了hardware slow_down DA:00.0，第一反应是硬件降速了，对于目前集群情况来说第一时间想到的就是GPU降速

我们可以根据提供的bus_id进行检查看看是什么设备

lspci | grep DA:00.0

可以明显看到是GPU，那我们接下来可以看看是哪张卡降速了

nvidia-smi -q

我们翻到DA:00.0这张卡可以看到了硬件降速，12866740653 us约等于3.57小时，这样就从GPU记录的信息来看，该GPU历史上确实发生过热降速，累计约3.57小时。

另外顺便列举下GPU降速类型有以下几种

降速类型	原因	解决方案
HW Thermal Slowdown	温度过高	1. 检查散热系统 2. 清理风扇和散热片 3. 改善机柜通风 4. 降低环境温度
HW Power Brake Slowdown	功耗超限	1. 检查电源供应 2. 降低GPU功耗限制 3. 优化应用负载
SW Thermal Slowdown	软件温控	1. 检查驱动温控设置 2. 调整温度阈值

根据上述列举我们是温度过高导致的降速，根据对应的解决方案实施再进行观察下。

然后查看GPU是否降频，我们也需要进行检查下

nvidia-smi -i 0 --query-gpu=index,utilization.gpu,temperature.gpu,power.draw,clocks.gr,clocks.mem,clocks_throttle_reasons.hw_slowdown,clocks_throttle_reasons.hw_thermal_slowdown,clocks_throttle_reasons.sw_power_cap,clocks_throttle_reasons.hw_power_brake_slowdown,clocks_throttle_reasons.gpu_idle,clocks_throttle_reasons.applications_clocks_setting --format=csv -lms 1

同时也需要确保GPU的当前的性能模式是P0

nvidia-smi -q | grep 'Performance State'

标签
linux
gpu

GPU卡住且dmesg日志中打印NVRM: _threadNodecheckTimeout错误排查

linux使用国内镜像仓库安装k8s

转载注明出处：https://sulao.cn/post/1153

今日天气

分类统计

博文归档

2篇

8篇

6篇

6篇

3篇

12篇

15篇

43篇

23篇

热门推荐

热门标签

linux下gpu降速问题排查

评论列表

相关阅读

常用网站