GPU未开启持久模式导致GPU卡住且dmesg日志中打印NVRM: _threadNodecheckTimeout错误

今天遇到一个节点卡住的问题,登录就一直卡着,直到好半天登录上去,查看dmesg日志,发现打印了以下错误信息

202512271637458162326599.png

从上述日志分析到时状态切换超时的问题,然后检查GPU状态,发现GPU未开启持久模式

202512271644343937342277.png

这种情况下可能是由于GPU在无任务时进入低功耗状态,从低功耗状态唤醒需要时间(4秒超时,正好对应日志中的 4000 msecs!),内核请求GPU时如果响应超时,就会产生类似的错误信息。

然后我们根据当前状态转写一个开机启动执行的一次性持久模式开启服务

sudo tee /etc/systemd/system/nvidia-persistence-mode.service >/dev/null <<EOF
[Unit]
Description=Enable NVIDIA GPU Persistence Mode
After=display-manager.service
Wants=sysinit.target

[Service]
Type=oneshot
ExecStart=/usr/bin/nvidia-smi -pm 1
User=root

[Install]
WantedBy=multi-user.target
EOF
sudo systemctl daemon-reload
sudo systemctl enable nvidia-persistence-mode.service
sudo systemctl start nvidia-persistence-mode.service

后续就没有再出现该错误信息了。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://sulao.cn/post/1154

评论列表

0%