nccl的安装和验证

NCCL(NVIDIACollectiveCommunicationsLibrary)是由NVIDIA开发的一种高性能的多GPU通信库,用于在多个NVIDIAGPU之间实现快速的数据传输和协同计算。它可以在深度学习和高性能计算领域中提供分布式训练和数据并行加速的支持。NCCL实现了针对NVIDIAGPU和网络进行优化的多GPU和多节点通信基元。NCCL提供了诸如全收集(all-gather)、全归约(all-reduce)、广播(broadcast)、归约(reduce)、归约散射(reduce-scatter)以及点对点发送和接收...

阅读全文

k8s调度GPU节点并挂载GPU设备

k8s已经支持GPU设备的调度和POD容器挂载,需要做以下配置1.首先我们需要再宿主机安装驱动2.需要安装nvidia-container-runtime3.GPU节点打标签并部署k8s-device-plugin上面1和2可以直接搜我之前的笔记,我们直接部署k8s-device-plugin,这个可以上报GPU节点的GPU数量到k8s中,然后在业务yaml文件中添加requests/limits请求配置中添加GPU相关配置即可自动调度到GPU节点并挂载GPU设备将以下内容保存为k8s-device-plugin.yaml,lable需要自己按照需求进行...

阅读全文

centos7内核影响GPU驱动无法安装

我们对centos7内核进行了升级,具体笔记可以查看笔记:https://sulao.cn/post/949.html,然后GPU驱动需要重新安装,安装的时候有以下报错An error occurred while performing the step: "Building kernel modules"我们安装驱动常见问题主要就是内核头文件,所以首先对这个进行了检查,由于之前升级内核,头文件还是3.10的,所以我们需要进行卸载,然后安装对应的...

阅读全文

containerd配置nvidia-container-runtime

之前我们在centos/ubuntu上安装过nvidia-container-runtime,配置也都是在docker中配置的,那么我们最近本地环境整体从docker换成了containerd,那么今天就来记录下在containerd中如何配置默认的runc到nvidia的containerruntime。安装的话还是可以查看以前的笔记centos7安装:https://sulao.cn/post/942.htmlubuntu安装:https://sulao.cn/post/919.html接下来修改/etc/containerd/config.tom...

阅读全文

centos7安装nvidia-container-runtime

之前ubuntu安装的可以查看之前笔记:https://sulao.cn/post/919.htmlcentos上安装也很简单,首先设置存储库和GPG密钥distribution=$(. /etc/os-release;echo $ID$VERSION_ID)curl -s -L https://nvidia.github.io/nvidia-container-runtime/$distribution/nvidia-container-runtime.repo | \&...

阅读全文

centos7安装英伟达GPU驱动

首先安装一些必要的依赖包yum install -y pciutils gcc gcc-c++ gcc-gfortran使用lspci命令检查是否有nvidia硬件lspci | grep -i nvidia关闭nouveau,把nouveaukerneldriver加入黑名单vi /lib/modprobe.d/dist-blacklist.conf将nvidiafb行注释掉,并在最后加入以下两行#blacklist nvidia...

阅读全文

CUDA库的安装和samples的使用方法

我们的环境是centos7,可以去官网下载指定版本的cuda库:https://developer.nvidia.com/cuda-toolkit-archive,我们这里以12.0的cuda库为例。wget https://developer.download.nvidia.com/compute/cuda/11.0.1/local_installers/cuda_11.0.1_450.36.06_linux.runsudo sh cuda_11.0.1_450.36.06_linux.run安装的时候我们就不再勾选D...

阅读全文

ubuntu20.04安装和卸载英伟达GPU驱动

在ubuntu上安装显卡驱动有几种方式,可以使用图形界面的方式安装,也可以使用命令行来安装,我们这里主要来讲使用命令行的方式安装,安装的方式也有两种,分为在线安装和离线安装。安装的时候推荐关掉图形化界面,进入终端模式进行安装sudo telinit 3 # 使用sudo telinit 5命令可以重新进入图形化界面1.使用命令行在线安装的方式如下更新所有的软件包和加入官方的ppa源sudo add-apt-repository ppa:graphics-drivers/ppa...

阅读全文

ubuntu安装nvidia-container-runtime

借助NVIDIAContainerRuntime,开发人员只需在创建容器期间注册一个新的运行时,即可将NVIDIAGPU暴露给容器中的应用程序。目前官网上NVIDIAContainerRuntime介绍如下NVIDIAContainerRuntimeisaGPUawarecontainerruntime,compatiblewiththeOpenContainersInitiative(OCI)specificationusedbyDocker,CRI-O,andotherpopula...

阅读全文

linux下NVLink版NVIDIA A100安装Fabric-manager的方法

NVIDIANVLinkA100GPU卡,需额外安装与驱动版本对应的nvidia-fabricmanager服务使GPU卡间能够互联通过NVSwitch互联,如果仅安装NVIDIAGPU驱动程序,会导致GPU不能正常使用。下面列出了ubuntu和centos7的安装方法,均是通过在线源来安装1.ubuntu的安装方式如下:首先需要安装数据中心GPU管理器,安装nvidiaDCGM,本次安装是在ubuntu上进行安装,获得存储库密钥:wget https://developer.download.nvidia.com/comp...

阅读全文