日常在一些程序中进行GPU调用,这些cuda程序异常崩溃的时候,有时会遇到掉卡掉驱动、没有进程但是显存被占用的情况,这个时候我们可以通过以下命令来尝试进行处理。如果是掉卡的话可以使用lspci查看下主...
之前我们有记录过一个笔记,是docker环境下通过查看到的进程PID号来查找到拥有该进程的POD,具体可以查看我之前的笔记:https://sulao.cn/post/922近期基本都在将docker...
MIG通过虚拟地将单个物理GPU划分为更小的独立实例,这项技术涉及GPU虚拟化,GPU的资源,包括CUDA内核和内存,被分配到不同的实例。这些实例彼此隔离,确保在一个实例上运行的任务不会干扰其他实例。...
我们在k8s使用英伟达GPU时想让POD自动挂载我们需要部署nvidia-device-plugin组件,如何部署使用可以查看我之前的笔记:https://sulao.cn/post/975英伟达的d...
目前市面上有很多GPU共享技术,在GPU共享的模式下,在用户态共享和内核态进行共享是不一样的,根据以下视图,越往底层,共享对用户的影响越小,安全性也能对应提升。下面我就来简单介绍下目前GPU共享的一些...
在 vGPU 模式下,GPU 上的内存是静态分区的,但计算能力在共享 GPU 的 VM 之间分时共享。在这种模式下,当虚拟机在 GPU 上运行时,它“拥有” GPU 的所有计算能力,但只能访问其共享的...
由于自己的云服务器内存只有1G,今天在编译软件的时候直接报错提示内存不足的相关报错,所以记录下增加swap交换分区的方法,之前没记录的,这次记录下,下次方便使用。dd if=/dev/zero of=...
上次笔记我们介绍过迈络思品牌的RDMA网卡驱动的安装,这里我们来就学习并记录下RDMA网卡的配置,之前的笔记我们可以查看:https://sulao.cn/post/974之前是到重启openibd服...
由于经常使用k8s,所以在遇到退出码含义的时候经常要去查询,所以记录到博客上方便进行查找对应的含义关系。 当一个容器达到 Exited 状态时,Docker 会在日志中报告一个退...