周末遇到一个问题,就是由于我ubuntu22.04安装的内核版本比较老,是5.15.0-88-generic这个版本,然后发现linux-libc-dev这个软件被升级了,我们使用命令查看跟内核版本不一致,这个包是lin...
最近监控有需求要监控计算网络,也就是infiniband网络,目前已有dcgm-exporter和node-exporter,就看看infiniband是否也有类似的expoter可以用来监控,于是查了下InfiniBa...
nvidia-smi 是 NVIDIA 提供的 GPU 管理工具,用于监控 GPU 使用情况和调整 GPU 状态。它支持 Linux 和 Windows 系统,安装 NVIDIA 驱动后即可使用。我们可以通过nvidia...
我目前测试多机多卡的nccl-tests测试都是使用的同一个编译脚本,编译的参数都是一致,所以今天这个问题很奇怪,我在使用openmpi+nccl-tests多机多卡测试有以下输出,然后程序就结束了。A compress...
今天遇到一个节点卡住的问题,登录就一直卡着,直到好半天登录上去,查看dmesg日志,发现打印了以下错误信息从上述日志分析到时状态切换超时的问题,然后检查GPU状态,发现GPU未开启持久模式这种情况下可能是由于GPU在无任...
今天在告警信息中查看到了hardware slow_down DA:00.0,第一反应是硬件降速了,对于目前集群情况来说第一时间想到的就是GPU降速我们可以根据提供的bus_id进行检查看看是什么设备lspci | gr...
我们此前使用k8s的国外软件仓库安装k8s,但有时会遇到国际线路不稳定,无法正常安装的情况,那么今天我们就来看看如何切换到使用国内镜像仓库来安装k8s,记录下以免后面又需要到处找。原来添加k8s官方的软件仓库的方式如下,...
实际之前我们记录过好几次证书更新的操作,但是往回翻看就觉得有点乱,今天就再次更新一下证书的更新步骤,同时为了后面规范写作,所以写一下影响范围,这样就能够清晰的翻看更新证书的注意事项。默认k8s的证书是1年的有效期,根证书...
这边此前用四块SSD盘做了raid10,后面想改成raid5,然后通过以下操作,RAID5阵列已经创建成功,正在重建中,显示"spare rebuilding",但是这个重建时间有点久,所以我们通过查找资料获取了一些方式...
DCGM (Data Center GPU Manager) 是 NVIDIA 提供的一个用于数据中心 GPU 管理和监控的工具集,提供了以下功能1.GPU 行为监控 2.GPU 配置管理 3.GPU 策略监督 4.GP...
利用免费 ARP(Gratuitous ARP) 实现内网 VIP 漂移 / 单节点虚拟 IP,分临时测试、永久配置、主备漂移(简单 HA) 三种场景,适配 Linux 系统。原理:手动 / 脚本在主机网卡配置虚拟 IP...
今天安装cuda12.04失败了,以前安装cuda基本都没有出现过失败的情况,那么我就拉看看今天安装失败打印的错误吧,错误信息如下[INFO]: Setting toolkit=true [INFO]: Adding d...
在做ubuntu集群初始化的时候第一步就是需要将具有sudo权限的账户ubuntu进行sudo命令的免密切换,设置sudo免密的方法有好几种,但是我们选择其中一种方法,就是在/etc/sudoers.d/目录下添加用户的...
MetalLB 是一个用于裸机 Kubernetes 集群的负载均衡器实现,使用标准路由协议。k8s 并没有为裸机集群实现负载均衡器,因此我们只有在以下 IaaS 平台(GCP, AWS, Azure)上才能使用 Loa...
目前cuda最新的版本已经来到了13.0,今天在cuda13.0的环境下编译gpu-burn报错,查了下资料,cuCtxCreate函数升级为了最新的v4,需要传入4个参数,但是gpu-burn还没更新,所以需要修正下这...
我们目前寻找一些好用的云盘,然后无意间翻到了 Cloudreve, 然后就实际搭建了一下看看效果,虽然没有满足我的使用需求,但是还是记录一下搭建的方法吧,首先我们还是来介绍下Cloudreve,Cloudreve 是一款...
我们此前都是手工部署nvidia-container-runtime,上报gpu信息使用的k8s-device-plugin,这些都是手工部署的,其中nvidia-container-runtime的部署涉及修改cont...
如果一块磁盘做了LVM逻辑卷管理,那么我们重置这块磁盘再使用时不能直接mkfs,这样无法彻底删除LVM的底层元数据,我们需要按照以下操作顺便来删除LVM,并擦除格式化使其成为一块正常硬盘使用。1.查看lv/vg/pv我们...
bash字符串操作实际经常写也经常查,但是基本就是记不住,所以就自己专门开一篇笔记来记录下,方便在自己的博客上来查,例子就以英伟达驱动的名字为例。NVIDIA_DRIVER="NVIDIA-Linux-x86_64-58...
单用户模式是一种特殊的启动模式,通常我们也可以称之为救援模式,通常用于系统维护和修复。在这个模式下,系统只启动一个超级用户(root),并且不启动网络服务和多用户环境。这对于忘记root密码、修复文件系统错误或进行其他系...