日常在一些程序中进行GPU调用,这些cuda程序异常崩溃的时候,有时会遇到掉卡掉驱动、没有进程但是显存被占用的情况,这个时候我们可以通过以下命令来尝试进行处理。如果是掉卡的话可以使用lspci查看下主板上还能否检测到GP...
MIG通过虚拟地将单个物理GPU划分为更小的独立实例,这项技术涉及GPU虚拟化,GPU的资源,包括CUDA内核和内存,被分配到不同的实例。这些实例彼此隔离,确保在一个实例上运行的任务不会干扰其他实例。使用MIG,每个实例...
我们在k8s使用英伟达GPU时想让POD自动挂载我们需要部署nvidia-device-plugin组件,如何部署使用可以查看我之前的笔记:https://sulao.cn/post/975英伟达的device plug...
目前市面上有很多GPU共享技术,在GPU共享的模式下,在用户态共享和内核态进行共享是不一样的,根据以下视图,越往底层,共享对用户的影响越小,安全性也能对应提升。下面我就来简单介绍下目前GPU共享的一些技术1.CUDA劫持...
由于containerd下配置nvidia-container-runtime比较繁琐,所以写了脚本去自动修改使用python修改config.toml文件首先需要安装toml模块pip3 install toml然后就...
之前我们在centos/ubuntu上安装过nvidia-container-runtime,配置也都是在docker中配置的,那么我们最近本地环境整体从docker换成了containerd,那么今天就来记录下在con...
之前ubuntu安装的可以查看之前笔记:https://sulao.cn/post/916centos上安装也很简单,首先设置存储库和 GPG 密钥distribution=$(. /etc/os-release;ech...