我们在使用系统服务管理命令systemctl停止docker的时候出现无法停止的问题,具体问题现象如下:systemctl stop docker Stopping 'docker.service', but its t...
containerd是作为k8s的cri,他总共会用两个目录,一个是数据目录root,另一个是保存状态的目录state,一般我们只用迁移root目录即可。我们有一块新磁盘作为存储磁盘,我们先将磁盘处理一下,然后进行数据迁...
NVIDIA HPC SDK是一套综合的编译器、库和工具,用于GPU加速HPC建模和仿真应用。随着对运行Linux的NVIDIA gpu和x86-64、OpenPOWER或Arm cpu的支持,NVIDIA HPC SD...
NVIDIA HPC-X 是一个综合软件包,包括消息传递接口 (MPI)、对称分层内存 (SHMEM) 和分区全局地址空间 (PGAS) 通信库以及各种加速包。这个功能齐全、经过测试和打包的工具包使 MPI 和 SHME...
GPU Direct RDMA 是一种由 NVIDIA 开发的技术,旨在实现 GPU 与第三方设备(如网络接口、视频采集设备、存储适配器)之间的直接数据交换,而无需经过 CPU 的参与。这项技术利用 PCI Expres...
Calico是一个网络和安全解决方案,使Kubernetes工作负载和非Kubernetes/遗留工作负载能够无缝安全地通信。我们今天来看看calico的部署和calico的常用的四种模式和使用场景,并操作如何进行这些模...
perftest是一组基于uverbs编写的测试程序,是RDMA性能相关的benchmark。可用于软硬件调优以及功能测试。这个工具在此前的笔记中有记录并简单使用过,在 https://sulao.cn/post/979...
很多cpu都支持动态节能技术,当系统负载较低较空闲的之后会自动降频达到节能的目的,但是在我们使用高性能服务器的场景下,当然是让cpu全力以赴的去运转,所以我们就需要去设置cpu为performance性能模式,在设置之前...
pdsh(Parallel Distributed Shell)是一个用于并行执行命令的工具,可以在多个远程主机上同时运行相同的命令。它对于需要在多台服务器上执行批量操作的系统管理员和开发人员非常有用。我们在使用pdsh...
OpenVPN 是一个功能齐全的开源传输层安全 (TLS) VPN 解决方案,可适应各种配置。 在本教程中,您将在 Ubuntu 22.04 服务器上设置 OpenVPN,然后将其配置为可从客户端计算机访问。1.安装 O...
之前用的php程序跑的应用,现在换成了python,比以前更吃内存了,所以升级了下云服务器,但是升级以后查看到内存只有1.6G,使用free命令查看内存1713188,感觉缩水很严重后面通过dmesg命令查看,发现系统预...
很多年前在centos系统上编译过一个版本,现在基本都改用ubuntu,所以在ubuntu22.04上再次进行编译并记录,此次编译的最新的17.5的版本,也包含了使用system管理postgresql服务的配置撰写。以...
mdadm是multiple devices admin的简称,它是Linux下的一款标准的软件 RAID 管理工具,今天我们就来试试使用这个工具制作一个软raid,我们准备了一台云服务器,另外挂载了两块20G的云盘做软...
ubuntu使用deb包安装指定版本内核ubuntu安装内核的方式有很多,我们之前学习过通过升级的脚本去安装指定的版本的内核,具体可以查看这里:https://sulao.cn/post/877,今天我们来看看另外两种安...
在很多集群的方案需求和设计中,都需要保持集群的服务器内核版本一致,有时由于误升级导致个别机器内核升级到新版本,所以我们需要对这些系统进行系统内核版本的切换。今天我们就来看看如何切换系统内核版本,当前前提是系统中安装了多个...
nvbandwidth是一款用于 NVIDIA 图形处理器带宽测量的工具,nvbandwidth 会使用复制引擎或内核复制方法来测量不同链路上各种 memcpy 模式的带宽。nvbandwidth 会报告您系统当前的测量...
ubuntu24.04添加apt源的方法和文件位置相对于以前的版本有变化,从原来的/etc/apt/sources.list文件更换到/etc/apt/sources.list.d/ubuntu.sources文件中。我...
qperf 可以用来测试两个节点之间的带宽(bandwidth)和延迟(latency),不仅仅可以用来测试 TCP/IP 协议的性能指标,还可以用来测试 RDMA 传输的指标。测试前需要准备两台装有IB网卡的机器,并且...
Slurm (Simple Linux Utility for Resource Management ,http://slurm.schedmd.com/ )是开源的、具有容错性和高度可扩展大型和小型 Linux集群资...