NVIDIA NVLink A100 GPU卡,需额外安装与驱动版本对应的 nvidia-fabricmanager 服务使 GPU 卡间能够互联通过NVSwitch互联,如果仅安装NVIDIA GPU 驱动程序,会导致GPU不能正常使用。
下面列出了ubuntu和centos7的安装方法,均是通过在线源来安装
1.ubuntu的安装方法
安装fabricmanager工具
export DRIVER_VERSION=570.172.08
wget https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2204/x86_64/nvidia-fabricmanager-$(echo $DRIVER_VERSION | awk -F '.' '{print $1}')_${DRIVER_VERSION}-1_amd64.deb
dpkg -i nvidia-fabricmanager-$(echo $DRIVER_VERSION | awk -F '.' '{print $1}')_${DRIVER_VERSION}-1_amd64.deb
2.centos7的安装方法
yum -y install yum-utils
yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repo
yum install -y nvidia-fabric-manager-535.146.02-1
根据自身的nvidia驱动版本号来修改,我这里是535.146.02
3.启动服务并设置开机启动
systemctl enable nvidia-fabricmanager.service
systemctl start nvidia-fabricmanager.service # 启动
systemctl status nvidia-fabricmanager.service #查看状态
如果上述工具没有安装在环境有类似如下报错
RuntimeError: cuda runtime error: system not yet initialized
查看nvlink卡相关命令如下:
nvidia-smi topo -m
nvidia-smi nvlink --status
内容版权声明:除非注明,否则皆为本站原创文章。
转载注明出处:https://sulao.cn/post/913
评论列表