DCGM (Data Center GPU Manager) 是 NVIDIA 提供的一个用于数据中心 GPU 管理和监控的工具集,提供了以下功能
1.GPU 行为监控
2.GPU 配置管理
3.GPU 策略监督
4.GPU 健康和诊断
5.GPU 计费和进程统计
6.NVSwitch 配置和监控我们此前部署过dcgm-exporter,也是需要依赖dcgm,只是部署的时候以pod形式部署的,相关的operator或者包已经替我们部署好了dcgm,所以没有单独去部署这个。
首先添加nvidia安装源,如果是20.04的话,可以直接修改ubuntu2204为ubuntu2004,添加源和安装命令操作是一致的。
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.0-1_all.deb
dpkg -i cuda-keyring_1.0-1_all.deb
add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ /"然后进行安装
apt-get update -y
apt-get install -y datacenter-gpu-manager安装完成以后需要启动并设置开机启动
systemctl start nvidia-dcgm
systemctl enable nvidia-dcgm然后我们就可以使用dcgmi命令了,我们先来看看命令帮助
dcgmi --help
用法:dcgmi
dcgmi subsystem
dcgmi -v
标志:
-v vv 获取 DCGMI 版本信息
subsystem 要访问的所需子系统。
可用子系统:
topo GPU 拓扑结构 [dcgmi topo -h 获取更多信息]
stats 进程统计信息 [dcgmi stats -h 获取更多信息]
diag 系统验证/诊断 [dcgmi diag –h 获取更多信息]
policy 策略管理 [dcgmi policy –h 获取更多信息]
health 健康监测 [dcgmi health –h 获取更多信息]
config 配置管理 [dcgmi config –h 获取更多信息]
group GPU 组管理 [dcgmi group –h 获取更多信息]
fieldgroup 字段组管理 [dcgmi fieldgroup –h 获取更多信息]
discovery 发现系统中的 GPU [dcgmi discovery –h 获取更多信息]
introspect 收集有关 DCGM 本身的信息 [dcgmi introspect –h 获取更多信息]
nvlink 显示 NvLink 链接状态和错误计数 [dcgmi nvlink –h 获取更多信息]
dmon GPU 的统计信息监测 [dcgmi dmon –h 获取更多信息]
modules 控制和列出 DCGM 模块
profile 控制和列出 DCGM 分析指标
set 配置主机引擎设置
-- ignore_rest 忽略此标志之后的其余带标签的参数。--version 显示版本信息并退出。
-h --help 显示用法信息并退出。
如有任何问题、错误报告等,请发送电子邮件至 dcgm-support@nvidia.com 。
英伟达数据中心 GPU 管理接口然后我们来看下常用命令,因为我们用的5090,没有nvlink所以我们只是记录下日常使用的命令,可能有些不完整,后面有环境了再进行补充
查看gpu基本信息
dcgmi discovery -l
查看gpu拓扑
dcgmi topo --gpuid 0
查看nvlink状态
dcgmi nvlink -s

查看profile性能指标
dcgmi profile -l
查看可用指标
dcgmi fieldgroup -l

查看设置分组
dcgmi group -l
可以设置自己的分组
dcgmi group -g 2 -a 0,1,2,3这样就添加了一个分组2,并包含gpu0,1,2,3
stats进程统计信息
默认有个0分组,我们可以开启stats统计
dcgmi stats -g 0 -e
查看统计信息
dcgmi stats -g 0 -j -v
停止进程统计
dcgmi stats -g 0 -d
健康监控
dcgmi health -g 0 -f

查看策略
dcgmi policy --get
相关字段释义
Violation conditions:None 没有设置违规触发条件(比如温度、功耗、ECC 错误等都没设)
Isolation mode:Automatic 隔离模式为自动,当 GPU 出现问题时,DCGM 会自动决定是否隔离(具体动作还要看是否设置了策略)
Action on violation:None 违规时不采取任何操作(例如不重置 GPU、不关机)
Validation after action:None 违规动作后不会做系统验证(比如温度或性能测试)
Validation failure action:None 验证失败时也不做任何动作查看加载的模块
dcgmi modules -ldiag诊断故障
dcgmi diag -r 1
-r 有四个级别,1-4 分别对应不同的测试覆盖范围
还有很多,我们环境所限,所以后面再补充。
内容版权声明:除非注明,否则皆为本站原创文章。
转载注明出处:https://sulao.cn/post/1149
相关阅读
- ubuntu22.04安装cuda失败提示"Uninstall manifest corrupt"
- ubuntu使用ssh命令批量设置集群节点具有sudo权限的账户sudo免密切换
- RTX 5090在cuda13.0下gpu-burn编译报错的解决方法
- k8s集群部署gpu-operator支持gpu节点自动发现和gpu上报
- ubuntu22.04算力环境基础配置一键验证脚本
- ubuntu22.04算力环境基础配置一键脚本
- nccl-tests多机多卡测试环境一键编译部署脚本
- ubuntu22.04忘记root密码进入单用户模式修改密码
- ubuntu22.04屏蔽使用apt安装软件时出现弹窗要求选择重启服务的方法
- nccl-tests英伟达GPU单机多卡一键测试脚本
评论列表