nvidia的nvidia-peermem模块通常是配合驱动参数NVreg_RegistryDwords一起使用,作用是强制启用 GPU 对等映射,让GPU 间通信直接进行,避免CPU的介入从而降低CPU负载,且不占用主...
前天有台客户的服务器自动重启了,接到通知后我对服务器进行了排查分析,顺便记录下这次排查的过程,登录重启的服务器我们首先就是需要确认的是重启的时间journalctl --list-boots 0 46204d44f10a...
今天客户有块磁盘识别容量大小异常,于是尝试关机插拔磁盘试试,插拔完重启使用mount -a进行挂载的时候出现了以下报错mount: /mnt/data1: wrong fs type, bad option, bad s...
周末遇到一个问题,就是由于我ubuntu22.04安装的内核版本比较老,是5.15.0-88-generic这个版本,然后发现linux-libc-dev这个软件被升级了,我们使用命令查看跟内核版本不一致,这个包是lin...
今天在告警信息中查看到了hardware slow_down DA:00.0,第一反应是硬件降速了,对于目前集群情况来说第一时间想到的就是GPU降速我们可以根据提供的bus_id进行检查看看是什么设备lspci | gr...
我们此前使用k8s的国外软件仓库安装k8s,但有时会遇到国际线路不稳定,无法正常安装的情况,那么今天我们就来看看如何切换到使用国内镜像仓库来安装k8s,记录下以免后面又需要到处找。原来添加k8s官方的软件仓库的方式如下,...
这边此前用四块SSD盘做了raid10,后面想改成raid5,然后通过以下操作,RAID5阵列已经创建成功,正在重建中,显示"spare rebuilding",但是这个重建时间有点久,所以我们通过查找资料获取了一些方式...
我们目前寻找一些好用的云盘,然后无意间翻到了 Cloudreve, 然后就实际搭建了一下看看效果,虽然没有满足我的使用需求,但是还是记录一下搭建的方法吧,首先我们还是来介绍下Cloudreve,Cloudreve 是一款...
bash字符串操作实际经常写也经常查,但是基本就是记不住,所以就自己专门开一篇笔记来记录下,方便在自己的博客上来查,例子就以英伟达驱动的名字为例。NVIDIA_DRIVER="NVIDIA-Linux-x86_64-58...
sshpass 是一个允许用户在非交互式 SSH 会话中自动输入密码的工具,这使得它在自动化脚本和批量处理任务中非常有用,SSH使用直接TTY访问来确保密码确实是由交互式键盘用户发出的。sshpass在专用的TTY中运行...