nvlink的GPU卡都需要安装fabricmanager,此前在centos的机器部署过fabricmanager,现在需要在ubuntu2204上进行部署,之前的笔记可以直接查看这里:https://sulao.cn/post/913
接着我们来看下安装的方法,实际安装比较简单,但是需要注意的是,fabricmanager安装的版本要GPU卡驱动要严格一致。
我们使用如下命令看是否是nvlink的卡
nvidia-smi nvlink --status
如果没有打印任何东西说明不是nvlink的话,如果打印了上述信息的话,我们就需要进行fabricmanager的安装。
首先下载安装包,注意下载的包的版本号需要大小版本号严格匹配,下面下载链接可以直接修改下载即可,下载后记可以使用dpkg命令进行安装
export DRIVER_VERSION=570.172.08
wget https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2204/x86_64/nvidia-fabricmanager-$(echo $DRIVER_VERSION | awk -F '.' '{print $1}')_${DRIVER_VERSION}-1_amd64.deb
dpkg -i nvidia-fabricmanager-$(echo $DRIVER_VERSION | awk -F '.' '{print $1}')_${DRIVER_VERSION}-1_amd64.deb安装完成以后启动并设置开机启动
systemctl start nvidia-fabricmanager.service
systemctl enable nvidia-fabricmanager.service
systemctl status nvidia-fabricmanager.service
然后我们还需要加载nvidia_peermem,使用如下命令进行加载
modprobe nvidia_peermem一般建议写入开机启动来开机自动加载,可以自行查找开机启动的方案,也可以查看我之前的笔记:https://sulao.cn/post/882
内容版权声明:除非注明,否则皆为本站原创文章。
转载注明出处:https://sulao.cn/post/1106
相关阅读
- ubuntu22.04安装dcgm和基本用法
- ubuntu22.04安装cuda失败提示"Uninstall manifest corrupt"
- ubuntu使用ssh命令批量设置集群节点具有sudo权限的账户sudo免密切换
- RTX 5090在cuda13.0下gpu-burn编译报错的解决方法
- k8s集群部署gpu-operator支持gpu节点自动发现和gpu上报
- ubuntu22.04算力环境基础配置一键验证脚本
- ubuntu22.04算力环境基础配置一键脚本
- nccl-tests多机多卡测试环境一键编译部署脚本
- ubuntu22.04忘记root密码进入单用户模式修改密码
- ubuntu22.04屏蔽使用apt安装软件时出现弹窗要求选择重启服务的方法
评论列表