gpu - 苏老的学习笔记

GPU服务器dmesg日志报错"Cannot map memory with base addr ..."的解决方案

今天有同事反馈有请求报错502，我于是检查系统上的日志发现有如下错误信息[Thu Jun 18 23:15:31 2026] NVRM: _threadNodeCheckTimeout: _threadNodeCheck...

AI程序索引越界引起的nvidia-fabricnamage异常问题排查

这两天客户反馈程序跑到一半异常了，然后查看dmesg日志有打印有很多nvswitch的12028的致命错误信息，还有Xid 94 和 137的错误信息，相关Xid 错误信息可以在这个笔记里面进行查询核对：https://...

荐英伟达GPU内核和驱动优化参数介绍

目前交付场景中我们常做一些内核和驱动参数优化，主要有内核加载nvidia_peermem，还有一些驱动调节参数，NVreg_EnableStreamMemOPs， NVreg_RegistryDwords，NVreg_E...

英伟达GPU nvidia-smi常用命令详解

nvidia-smi 是 NVIDIA 提供的 GPU 管理工具，用于监控 GPU 使用情况和调整 GPU 状态。它支持 Linux 和 Windows 系统，安装 NVIDIA 驱动后即可使用。我们可以通过nvidia...

荐 GPU卡住且dmesg日志中打印NVRM: _threadNodecheckTimeout错误排查

今天遇到一个节点卡住的问题，登录就一直卡着，直到好半天登录上去，查看dmesg日志，发现打印了以下错误信息从上述日志分析到时状态切换超时的问题，然后检查GPU状态，发现GPU未开启持久模式这种情况下可能是由于GPU在无任...

linux下gpu降速问题排查

今天在告警信息中查看到了hardware slow_down DA:00.0，第一反应是硬件降速了，对于目前集群情况来说第一时间想到的就是GPU降速我们可以根据提供的bus_id进行检查看看是什么设备lspci | gr...

linux
gpu

ubuntu22.04安装dcgm和基本用法

DCGM (Data Center GPU Manager) 是 NVIDIA 提供的一个用于数据中心 GPU 管理和监控的工具集，提供了以下功能1.GPU 行为监控 2.GPU 配置管理 3.GPU 策略监督 4.GP...

RTX 5090在cuda13.0下gpu-burn编译报错的解决方法

目前cuda最新的版本已经来到了13.0，今天在cuda13.0的环境下编译gpu-burn报错，查了下资料，cuCtxCreate函数升级为了最新的v4，需要传入4个参数，但是gpu-burn还没更新，所以需要修正下这...

荐 k8s集群部署gpu-operator支持gpu节点自动发现和gpu上报

我们此前都是手工部署nvidia-container-runtime，上报gpu信息使用的k8s-device-plugin，这些都是手工部署的，其中nvidia-container-runtime的部署涉及修改cont...

ubuntu22.04算力环境基础配置一键验证脚本

发了一个算力环境基础配置的一键脚本，这里将自己写的环境验证脚本也一并发下，方便后面自己使用。#!/bin/bash #set -e function INFO(){ /bin/echo -e "\e[104m\...

ubuntu
gpu

ubuntu22.04算力环境基础配置一键脚本

自己写的算力环境基础配置一键脚本，方便自己使用，如果普通用户没有免密的话需要输入一次密码，如果是root用户就直接执行#!/bin/bash #set -e CURRENT_PATH=`readlink -f $(di...

ubuntu
gpu

nccl-tests多机多卡测试环境一键编译部署脚本

此前我们做了一个单机多卡的nccl-tests部署测试脚本，多集卡多卡的我们也需要经常测试，所以这次记录了一个自己用的多机多卡openmpi+nccl+nccl-tests编译安装脚本，注意不含测试，这个脚本最终编译完成...

nccl-tests英伟达GPU单机多卡一键测试脚本

由于经常需要做测试，所以撰写了一个测试单机多卡的bash脚本，前提需要环境中已经安装nvidia驱动和cuda库，且cuda库安装在默认目录/usr/local/下，然后nccl我是下载的zip包，名字是nccl-mas...

AI应用程序导致GPU异常的常见原因

AI训练程序也是是导致GPU异常的最常见原因之一。训练深度神经网络对GPU施加的压力是巨大且持续的，远超大多数图形渲染或通用计算任务。1.显存耗尽 (Out of Memory - OOM)这是最常见的的原因。当训练程序...

ai
gpu

荐英伟达GPU XID Errors介绍和错误码整理

Xid 消息是来自 NVIDIA 驱动程序的错误报告，会打印到操作系统的内核日志或事件日志中。Xid 消息表明发生了普遍的 GPU 错误，通常是因为驱动程序错误地对 GPU 进行了编程，或者是因为发送给 GPU 的指令出...

使用GPU时出现XID 119/XID 120错误导致GPU掉卡

在Linux系统上使用GPU时，可能会因为GPU的GSP（GPU System Processor）组件运行状态异常，导致GPU卡在初始化时提示失败（例如出现XID 119或XID 120错误信息），本文为您介绍这种情况...

gpu
xid

今日天气

分类统计

博文归档

7篇

5篇

3篇

1篇

2篇

8篇

6篇

7篇

3篇

12篇

15篇

43篇

热门推荐

热门标签

GPU服务器dmesg日志报错"Cannot map memory with base addr ..."的解决方案