ubuntu22.04安装dcgm和基本用法

DCGM (Data Center GPU Manager) 是 NVIDIA 提供的一个用于数据中心 GPU 管理和监控的工具集,提供了以下功能

1.GPU 行为监控
2.GPU 配置管理
3.GPU 策略监督
4.GPU 健康和诊断
5.GPU 计费和进程统计
6.NVSwitch 配置和监控

我们此前部署过dcgm-exporter,也是需要依赖dcgm,只是部署的时候以pod形式部署的,相关的operator或者包已经替我们部署好了dcgm,所以没有单独去部署这个。

首先添加nvidia安装源,如果是20.04的话,可以直接修改ubuntu2204为ubuntu2004,添加源和安装命令操作是一致的。

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.0-1_all.deb
dpkg -i cuda-keyring_1.0-1_all.deb
add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ /"

然后进行安装

apt-get update -y
apt-get install -y datacenter-gpu-manager

安装完成以后需要启动并设置开机启动

systemctl start nvidia-dcgm
systemctl enable nvidia-dcgm

然后我们就可以使用dcgmi命令了,我们先来看看命令帮助

dcgmi --help
用法:dcgmi
dcgmi subsystem
dcgmi -v
标志:
-v vv 获取 DCGMI 版本信息
subsystem 要访问的所需子系统。
可用子系统:
topo GPU 拓扑结构 [dcgmi topo -h 获取更多信息]
stats 进程统计信息 [dcgmi stats -h 获取更多信息]
diag 系统验证/诊断 [dcgmi diag –h 获取更多信息]
policy 策略管理 [dcgmi policy –h 获取更多信息]
health 健康监测 [dcgmi health –h 获取更多信息]
config 配置管理 [dcgmi config –h 获取更多信息]
group GPU 组管理 [dcgmi group –h 获取更多信息]
fieldgroup 字段组管理 [dcgmi fieldgroup –h 获取更多信息]
discovery 发现系统中的 GPU [dcgmi discovery –h 获取更多信息]
introspect 收集有关 DCGM 本身的信息 [dcgmi introspect –h 获取更多信息]
nvlink 显示 NvLink 链接状态和错误计数 [dcgmi nvlink –h 获取更多信息]
dmon GPU 的统计信息监测 [dcgmi dmon –h 获取更多信息]
modules 控制和列出 DCGM 模块
profile 控制和列出 DCGM 分析指标
set 配置主机引擎设置
-- ignore_rest 忽略此标志之后的其余带标签的参数。--version 显示版本信息并退出。
-h --help 显示用法信息并退出。
如有任何问题、错误报告等,请发送电子邮件至 dcgm-support@nvidia.com 。
英伟达数据中心 GPU 管理接口

然后我们来看下常用命令,因为我们用的5090,没有nvlink所以我们只是记录下日常使用的命令,可能有些不完整,后面有环境了再进行补充

查看gpu基本信息

dcgmi discovery -l

202511221300108899874304.png

查看gpu拓扑

dcgmi topo --gpuid 0

202511251517283171047892.png

查看nvlink状态

dcgmi nvlink -s

202511251517369310589464.png

查看profile性能指标

dcgmi profile -l

查看可用指标

dcgmi fieldgroup -l

202511221303159511972199.png

查看设置分组

dcgmi group -l

202511221313207996910006.png

可以设置自己的分组

dcgmi group -g 2 -a 0,1,2,3

这样就添加了一个分组2,并包含gpu0,1,2,3

stats进程统计信息

默认有个0分组,我们可以开启stats统计

dcgmi stats -g 0 -e

查看统计信息

dcgmi stats -g 0 -j -v

停止进程统计

dcgmi stats -g 0 -d

健康监控

dcgmi health -g 0 -f

202511221316184637785537.png

查看策略

dcgmi policy --get

202511221304421523616868.png

相关字段释义

Violation conditions:None 没有设置违规触发条件(比如温度、功耗、ECC 错误等都没设)
Isolation mode:Automatic 隔离模式为自动,当 GPU 出现问题时,DCGM 会自动决定是否隔离(具体动作还要看是否设置了策略)
Action on violation:None 违规时不采取任何操作(例如不重置 GPU、不关机)
Validation after action:None 违规动作后不会做系统验证(比如温度或性能测试)
Validation failure action:None 验证失败时也不做任何动作

查看加载的模块

dcgmi modules -l

diag诊断故障

dcgmi diag -r 1

-r 有四个级别,1-4 分别对应不同的测试覆盖范围

还有很多,我们环境所限,所以后面再补充。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://sulao.cn/post/1149

评论列表

0%