nvidia的nvidia-peermem模块通常是配合驱动参数NVreg_RegistryDwords一起使用,作用是强制启用 GPU 对等映射,让GPU 间通信直接进行,避免CPU的介入从而降低CPU负载,且不占用主...
目前交付场景中我们常做一些内核和驱动参数优化,主要有内核加载nvidia_peermem,还有一些驱动调节参数,NVreg_EnableStreamMemOPs, NVreg_RegistryDwords,NVreg_E...
前天有台客户的服务器自动重启了,接到通知后我对服务器进行了排查分析,顺便记录下这次排查的过程,登录重启的服务器我们首先就是需要确认的是重启的时间journalctl --list-boots 0 46204d44f10a...
今天客户有块磁盘识别容量大小异常,于是尝试关机插拔磁盘试试,插拔完重启使用mount -a进行挂载的时候出现了以下报错mount: /mnt/data1: wrong fs type, bad option, bad s...
周末遇到一个问题,就是由于我ubuntu22.04安装的内核版本比较老,是5.15.0-88-generic这个版本,然后发现linux-libc-dev这个软件被升级了,我们使用命令查看跟内核版本不一致,这个包是lin...
最近监控有需求要监控计算网络,也就是infiniband网络,目前已有dcgm-exporter和node-exporter,就看看infiniband是否也有类似的expoter可以用来监控,于是查了下InfiniBa...
nvidia-smi 是 NVIDIA 提供的 GPU 管理工具,用于监控 GPU 使用情况和调整 GPU 状态。它支持 Linux 和 Windows 系统,安装 NVIDIA 驱动后即可使用。我们可以通过nvidia...
我目前测试多机多卡的nccl-tests测试都是使用的同一个编译脚本,编译的参数都是一致,所以今天这个问题很奇怪,我在使用openmpi+nccl-tests多机多卡测试有以下输出,然后程序就结束了。A compress...
今天遇到一个节点卡住的问题,登录就一直卡着,直到好半天登录上去,查看dmesg日志,发现打印了以下错误信息从上述日志分析到时状态切换超时的问题,然后检查GPU状态,发现GPU未开启持久模式这种情况下可能是由于GPU在无任...
今天在告警信息中查看到了hardware slow_down DA:00.0,第一反应是硬件降速了,对于目前集群情况来说第一时间想到的就是GPU降速我们可以根据提供的bus_id进行检查看看是什么设备lspci | gr...