GPU/AI笔记_苏老的学习笔记

nccl-test工具安装和使用方法

作者：shevechco 日期：2024-06-04 分类：GPU/AI笔记浏览：1176912次评论：0条

NCCLTests是一个开源的测试套件，由NVIDIA开发并维护，目的是为了帮助开发者更好地理解和利用NCCL的功能。它提供了多种并发和消息传递模式的基准测试，以评估多GPU间的通信效率，并且支持各种CUDA和MPI环境。我们在多机多卡进行测试的时候确保环境中高性能网络已经部署并配置好，注意，如果没有IB之类的高性能网络支持，多机多卡通信效率肯定会很低，延迟大。NCCL可以加速GPU通信，降低通信开销，它允许两个特定的GPU之间直接交换数据，同时NCCL还支持集体通信，这些操作涉及多个GPU之间的数据交换。集合通讯模式1.P2P(Point-to-po...

阅读全文

英伟达GPU异常问题常见处理方法

作者：shevechco 日期：2024-05-31 分类：GPU/AI笔记浏览：89004次评论：0条

日常在一些程序中进行GPU调用，这些cuda程序异常崩溃的时候，有时会遇到掉卡掉驱动、没有进程但是显存被占用的情况，这个时候我们可以通过以下命令来尝试进行处理。如果是掉卡的话可以使用lspci查看下主板上还能否检测到GPU卡lspci | grep -i nvidia00:03.0 VGA compatible controller: NVIDIA Corporation Device 1f03 (rev a1)00:...

阅读全文

英伟达GPU配置MIG实例和原理介绍

作者：shevechco 日期：2024-05-24 分类：GPU/AI笔记浏览：1587次评论：0条

MIG通过虚拟地将单个物理GPU划分为更小的独立实例，这项技术涉及GPU虚拟化，GPU的资源，包括CUDA内核和内存，被分配到不同的实例。这些实例彼此隔离，确保在一个实例上运行的任务不会干扰其他实例。使用MIG，每个实例的处理器都有独立和隔离的路径通过整个存储系统，芯片上的crossbar端口，L2cache，内存控制器和DRAM地址总线都被唯一地分配给一个单独的实例。这确保了单个用户的工作负载可以在相同的L2缓存分配和DRAM带宽下，以可预测的吞吐量和延迟运行，即使其它任务正在抖动它们自己的缓存或饱和它们的DRAM接口。MIG能够对可用的GPU计算资...

阅读全文

Nvidia Device PLugin工作原理机制

作者：shevechco 日期：2024-05-23 分类：GPU/AI笔记浏览：582次评论：0条

我们在k8s使用英伟达GPU时想让POD自动挂载我们需要部署nvidia-device-plugin组件，如何部署使用可以查看我之前的笔记：https://sulao.cn/post/978.html英伟达的deviceplugin组件主要在整个工作过程中做了如下工作1.deviceserver的启动和注册deviceserver在启动的时候会检测/var/lib/kubelet/device-plugins/kubelet.sock文件，如果该文件存在，那么deviceserver会通过该sock文件向kubelet注册信息。2.device的...

阅读全文

目前主流几种GPU共享技术原理

作者：shevechco 日期：2024-05-22 分类：GPU/AI笔记浏览：943次评论：0条

目前市面上有很多GPU共享技术，在GPU共享的模式下，在用户态共享和内核态进行共享是不一样的，根据以下视图，越往底层，共享对用户的影响越小，安全性也能对应提升。下面我就来简单介绍下目前GPU共享的一些技术1.CUDA劫持：rCUDA，vCUDA等CUDA劫持是较多方案选择的共享方法，属于时间复用。它通过劫持对CudadriverAPI的调用来做到资源隔离。共享模块一般位于在CudadriverAPI之上。优势：API开源，是非Nvidia官方技术人员能够较容易实现的共享技术。劣势：1.CUDA库升级活跃，而当CUDA库升级时，劫持方案也需要不断适...

阅读全文

GPU虚拟化MIG和vGPU技术对比

作者：shevechco 日期：2024-05-22 分类：GPU/AI笔记浏览：720次评论：0条

在vGPU模式下，GPU上的内存是静态分区的，但计算能力在共享GPU的VM之间分时共享。在这种模式下，当虚拟机在GPU上运行时，它“拥有”GPU的所有计算能力，但只能访问其共享的GPU内存。在MIG模式下，内存和计算能力是静态划分的。当VM在MIG模式下使用GPU时，它只能访问分配给它的内存，并且只能使用分配给它的计算核心。因此，即使GPU中剩余的计算核心（即未分配给该VM的核心）处于空闲状态，VM也无法使用这些空闲核心。无论VM使用哪种模式来执行其工作负载，计算结果都是相同的。唯一的区别在于使用挂...

阅读全文

centos7内核影响GPU驱动无法安装

作者：shevechco 日期：2023-12-21 分类：GPU/AI笔记浏览：535次评论：0条

我们对centos7内核进行了升级，具体笔记可以查看笔记：https://sulao.cn/post/949.html，然后GPU驱动需要重新安装，安装的时候有以下报错An error occurred while performing the step: "Building kernel modules"我们安装驱动常见问题主要就是内核头文件，所以首先对这个进行了检查，由于之前升级内核，头文件还是3.10的，所以我们需要进行卸载，然后安装对应的...

阅读全文

containerd配置nvidia-container-runtime

作者：shevechco 日期：2023-12-21 分类：GPU/AI笔记浏览：589次评论：0条

之前我们在centos/ubuntu上安装过nvidia-container-runtime，配置也都是在docker中配置的，那么我们最近本地环境整体从docker换成了containerd，那么今天就来记录下在containerd中如何配置默认的runc到nvidia的containerruntime。安装的话还是可以查看以前的笔记centos7安装：https://sulao.cn/post/942.htmlubuntu安装：https://sulao.cn/post/919.html接下来修改/etc/containerd/config.tom...

阅读全文

CUDA库的安装和samples的使用方法

作者：shevechco 日期：2023-12-04 分类：GPU/AI笔记浏览：949次评论：0条

我们的环境是centos7，可以去官网下载指定版本的cuda库：https://developer.nvidia.com/cuda-toolkit-archive，我们这里以12.0的cuda库为例。wget https://developer.download.nvidia.com/compute/cuda/11.0.1/local_installers/cuda_11.0.1_450.36.06_linux.runsudo sh cuda_11.0.1_450.36.06_linux.run安装的时候我们就不再勾选D...

阅读全文

Tensorflow运行报错'Could not load dynamic library libcudnn.so.8'

作者：shevechco 日期：2023-11-30 分类：GPU/AI笔记浏览：402次评论：0条

Tensorflow运行报错'Couldnotloaddynamiclibrarylibcudnn.so.8'，该报错是由于没有cudnn导致，可以在https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html这个页面找到安装方法。cudnn文件可以在https://developer.nvidia.com/rdp/cudnn-archive去下载，注意需要下载对应cuda版本的cudnn我们如果cuda版本是12.0，则下载12.0下对应系统架构的tar...

阅读全文