在Linux系统上使用GPU时,可能会因为GPU的GSP(GPU System Processor)组件运行状态异常,导致GPU卡在初始化时提示失败(例如出现XID 119或XID 120错误信息),本文为您介绍这种情况的解决方案。
使用GPU时出现GPU掉卡现象,例如在Linux系统上使用GPU时,出现GPU卡初始化失败的错误提示。执行 sh nvidia-bug-report.sh nvidia-bug-report.sh 命令后,在生成的日志中,可以看到XID 119或XID 120错误信息。以XID 119报错页面为例,显示如下:

引起上述问题的原因可能是GPU的GSP(GPU System Processor)组件运行状态异常,升级NVIDIA最新版本驱动后,如果GPU掉卡问题仍然会复现,则建议您关闭GSP功能。
执行以下命令,关闭GPU的GSP组件
echo 'options nvidia NVreg_EnableGpuFirmware=0' > /etc/modprobe.d/nvidia-gsp.conf然后重启服务器,使用以下命令进行检查
cat /proc/driver/nvidia/params | grep EnableGpuFirmware:
EnableGpuFirmware: 0如果返回结果不是EnableGpuFirmware: 0,则表示GSP组件没有关闭,请继续执行下一步确认NVIDIA GPU是否正常。
内容版权声明:除非注明,否则皆为本站原创文章。
转载注明出处:https://sulao.cn/post/1116
相关阅读
- GPU服务器dmesg日志报错"Cannot map memory with base addr ..."的解决方案
- AI程序索引越界引起的nvidia-fabricnamage异常问题排查
- 英伟达GPU内核和驱动优化参数介绍
- 英伟达GPU nvidia-smi常用命令详解
- GPU卡住且dmesg日志中打印NVRM: _threadNodecheckTimeout错误排查
- linux下gpu降速问题排查
- ubuntu22.04安装dcgm和基本用法
- RTX 5090在cuda13.0下gpu-burn编译报错的解决方法
- k8s集群部署gpu-operator支持gpu节点自动发现和gpu上报
- ubuntu22.04算力环境基础配置一键验证脚本
评论列表