在做具体操作之前我们来了解下ACS,ACS是指PCI访问控制服务(PCI Access Control Service),是一种在启用VT-d(I/O虚拟化技术)时用于控制PCI设备访问权限的机制,属于BIOS芯片组配置...
nvidia的nvidia-peermem模块通常是配合驱动参数NVreg_RegistryDwords一起使用,作用是强制启用 GPU 对等映射,让GPU 间通信直接进行,避免CPU的介入从而降低CPU负载,且不占用主...
前天有台客户的服务器自动重启了,接到通知后我对服务器进行了排查分析,顺便记录下这次排查的过程,登录重启的服务器我们首先就是需要确认的是重启的时间journalctl --list-boots 0 46204d44f10a...
今天客户有块磁盘识别容量大小异常,于是尝试关机插拔磁盘试试,插拔完重启使用mount -a进行挂载的时候出现了以下报错mount: /mnt/data1: wrong fs type, bad option, bad s...
周末遇到一个问题,就是由于我ubuntu22.04安装的内核版本比较老,是5.15.0-88-generic这个版本,然后发现linux-libc-dev这个软件被升级了,我们使用命令查看跟内核版本不一致,这个包是lin...
今天在告警信息中查看到了hardware slow_down DA:00.0,第一反应是硬件降速了,对于目前集群情况来说第一时间想到的就是GPU降速我们可以根据提供的bus_id进行检查看看是什么设备lspci | gr...
我们此前使用k8s的国外软件仓库安装k8s,但有时会遇到国际线路不稳定,无法正常安装的情况,那么今天我们就来看看如何切换到使用国内镜像仓库来安装k8s,记录下以免后面又需要到处找。原来添加k8s官方的软件仓库的方式如下,...
这边此前用四块SSD盘做了raid10,后面想改成raid5,然后通过以下操作,RAID5阵列已经创建成功,正在重建中,显示"spare rebuilding",但是这个重建时间有点久,所以我们通过查找资料获取了一些方式...
我们目前寻找一些好用的云盘,然后无意间翻到了 Cloudreve, 然后就实际搭建了一下看看效果,虽然没有满足我的使用需求,但是还是记录一下搭建的方法吧,首先我们还是来介绍下Cloudreve,Cloudreve 是一款...
bash字符串操作实际经常写也经常查,但是基本就是记不住,所以就自己专门开一篇笔记来记录下,方便在自己的博客上来查,例子就以英伟达驱动的名字为例。NVIDIA_DRIVER="NVIDIA-Linux-x86_64-58...
sshpass 是一个允许用户在非交互式 SSH 会话中自动输入密码的工具,这使得它在自动化脚本和批量处理任务中非常有用,SSH使用直接TTY访问来确保密码确实是由交互式键盘用户发出的。sshpass在专用的TTY中运行...
MTR(My Traceroute)是一个结合了 traceroute 和 ping 功能的开源网络诊断工具。它通过发送 ICMP 或 UDP 数据包,实时显示数据包经过的路由器及其响应时间,帮助用户分析网络延迟、丢包等...
update-initramfs 是在 Linux 系统中用于更新 initramfs 归档文件的一个命令。initramfs(初始内存文件系统)是一个临时的根文件系统,它在系统启动过程中加载到内存中。它包含了启动时直到...
使用mdadm工具创建软raid阵列,我们之前学习实践过,可以查看之前的笔记:https://sulao.cn/post/1085,今天我们记录学习下如果软raid阵列中有损坏的盘,我们如何进行替换故障盘。1.创建软ra...
linux下生成密钥使用ssh-keygen命令,生成的方法可以查看我之前的笔记:https://sulao.cn/post/283当遇到系统变化,需要重新生成密钥的情况,客户不愿意更换密码,不能直接拿以前的私钥替换原来...
此前安装nccl都是通过在线安装,今天来记录下如何编译安装,相对于在线安装本地编译安装对于没有root权限,且没有联网环境的状态下使用。下面我们就来编译下nccl,编译过程比较简单。git clone https://g...
NVIDIA HPC SDK是一套综合的编译器、库和工具,用于GPU加速HPC建模和仿真应用。随着对运行Linux的NVIDIA gpu和x86-64、OpenPOWER或Arm cpu的支持,NVIDIA HPC SD...
NVIDIA HPC-X 是一个综合软件包,包括消息传递接口 (MPI)、对称分层内存 (SHMEM) 和分区全局地址空间 (PGAS) 通信库以及各种加速包。这个功能齐全、经过测试和打包的工具包使 MPI 和 SHME...
GPU Direct RDMA 是一种由 NVIDIA 开发的技术,旨在实现 GPU 与第三方设备(如网络接口、视频采集设备、存储适配器)之间的直接数据交换,而无需经过 CPU 的参与。这项技术利用 PCI Expres...