ubuntu22.04安装dcgm和基本用法

发布于2025-11-22 12:56:46 更新于2025-11-25 15:17:50
运维
浏览 641
shevechco
手机浏览
评论数 0

DCGM (Data Center GPU Manager) 是 NVIDIA 提供的一个用于数据中心 GPU 管理和监控的工具集，提供了以下功能

1.GPU 行为监控
2.GPU 配置管理
3.GPU 策略监督
4.GPU 健康和诊断
5.GPU 计费和进程统计
6.NVSwitch 配置和监控

我们此前部署过dcgm-exporter，也是需要依赖dcgm，只是部署的时候以pod形式部署的，相关的operator或者包已经替我们部署好了dcgm，所以没有单独去部署这个。

首先添加nvidia安装源，如果是20.04的话，可以直接修改ubuntu2204为ubuntu2004，添加源和安装命令操作是一致的。

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.0-1_all.deb
dpkg -i cuda-keyring_1.0-1_all.deb
add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ /"

然后进行安装

apt-get update -y
apt-get install -y datacenter-gpu-manager

安装完成以后需要启动并设置开机启动

systemctl start nvidia-dcgm
systemctl enable nvidia-dcgm

然后我们就可以使用dcgmi命令了，我们先来看看命令帮助

dcgmi --help
用法：dcgmi
dcgmi subsystem
dcgmi -v
标志：
-v vv 获取 DCGMI 版本信息
subsystem 要访问的所需子系统。
可用子系统：
topo GPU 拓扑结构 [dcgmi topo -h 获取更多信息]
stats 进程统计信息 [dcgmi stats -h 获取更多信息]
diag 系统验证/诊断 [dcgmi diag –h 获取更多信息]
policy 策略管理 [dcgmi policy –h 获取更多信息]
health 健康监测 [dcgmi health –h 获取更多信息]
config 配置管理 [dcgmi config –h 获取更多信息]
group GPU 组管理 [dcgmi group –h 获取更多信息]
fieldgroup 字段组管理 [dcgmi fieldgroup –h 获取更多信息]
discovery 发现系统中的 GPU [dcgmi discovery –h 获取更多信息]
introspect 收集有关 DCGM 本身的信息 [dcgmi introspect –h 获取更多信息]
nvlink 显示 NvLink 链接状态和错误计数 [dcgmi nvlink –h 获取更多信息]
dmon GPU 的统计信息监测 [dcgmi dmon –h 获取更多信息]
modules 控制和列出 DCGM 模块
profile 控制和列出 DCGM 分析指标
set 配置主机引擎设置
-- ignore_rest 忽略此标志之后的其余带标签的参数。--version 显示版本信息并退出。
-h --help 显示用法信息并退出。
如有任何问题、错误报告等，请发送电子邮件至 dcgm-support@nvidia.com 。
英伟达数据中心 GPU 管理接口

然后我们来看下常用命令，因为我们用的5090，没有nvlink所以我们只是记录下日常使用的命令，可能有些不完整，后面有环境了再进行补充

查看gpu基本信息

dcgmi discovery -l

查看gpu拓扑

dcgmi topo --gpuid 0

查看nvlink状态

dcgmi nvlink -s

查看profile性能指标

dcgmi profile -l

查看可用指标

dcgmi fieldgroup -l

查看设置分组

dcgmi group -l

可以设置自己的分组

dcgmi group -g 2 -a 0,1,2,3

这样就添加了一个分组2，并包含gpu0,1,2,3

stats进程统计信息

默认有个0分组，我们可以开启stats统计

dcgmi stats -g 0 -e

查看统计信息

dcgmi stats -g 0 -j -v

停止进程统计

dcgmi stats -g 0 -d

健康监控

dcgmi health -g 0 -f

查看策略

dcgmi policy --get

相关字段释义

Violation conditions：None 没有设置违规触发条件（比如温度、功耗、ECC 错误等都没设）
Isolation mode：Automatic 隔离模式为自动，当 GPU 出现问题时，DCGM 会自动决定是否隔离（具体动作还要看是否设置了策略）
Action on violation：None 违规时不采取任何操作（例如不重置 GPU、不关机）
Validation after action：None 违规动作后不会做系统验证（比如温度或性能测试）
Validation failure action：None 验证失败时也不做任何动作

查看加载的模块

dcgmi modules -l

diag诊断故障

dcgmi diag -r 1

-r 有四个级别，1-4 分别对应不同的测试覆盖范围

还有很多，我们环境所限，所以后面再补充。

标签
ubuntu
dcgm
nvidia
gpu

linux重新构建软raid其中一块盘一直rebuilding的解决方法

ubuntu22.04安装cuda失败提示"Uninstall manifest corrupt"

转载注明出处：https://sulao.cn/post/1149

今日天气

分类统计

博文归档

2篇

8篇

6篇

6篇

3篇

12篇

15篇

43篇

23篇

热门推荐

热门标签

ubuntu22.04安装dcgm和基本用法

评论列表

相关阅读

常用网站