nccl-test工具安装和使用方法

NCCLTests是一个开源的测试套件,由NVIDIA开发并维护,目的是为了帮助开发者更好地理解和利用NCCL的功能。它提供了多种并发和消息传递模式的基准测试,以评估多GPU间的通信效率,并且支持各种CUDA和MPI环境。我们在多机多卡进行测试的时候确保环境中高性能网络已经部署并配置好,注意,如果没有IB之类的高性能网络支持,多机多卡通信效率肯定会很低,延迟大。NCCL可以加速GPU通信,降低通信开销,它允许两个特定的GPU之间直接交换数据,同时NCCL还支持集体通信,这些操作涉及多个GPU之间的数据交换。集合通讯模式1.P2P(Point-to-po...

阅读全文

centos7安装CUDA Tookit+CUDA Samples+NCCL+OpenMPI

NVIDIA®CUDA®工具包为创建高性能GPU加速应用提供了发展环境。使用CUDA工具包,您可以在GPU加速嵌入式系统、桌面工作站、企业数据中心、基于云的平台和HPC超级计算机上开发、优化和部署您的应用程序。工具包包括GPU加速库、调试和优化工具、C/C++编译器以及一个运行时库,以便在包括x86、Arm和POWER在内的主要架构上构建和部署您的应用程序。科学家和研究人员可以利用内置功能在多GPU配置中分配计算,开发从单个GPU工作站到拥有数千个GPU的云安装的应用程序。简单介绍下我们就来进行cudatook...

阅读全文

centos7添加交换分区swap

由于自己的云服务器内存只有1G,今天在编译软件的时候直接报错提示内存不足的相关报错,所以记录下增加swap交换分区的方法,之前没记录的,这次记录下,下次方便使用。dd if=/dev/zero of=/dev/mapper/centos-swap bs=1024 count=2048000 #划分2G空间chmod 600 /swapmkswap /swap #创建交换分区swapon /swap #激活交换分区再使用swapon命令...

阅读全文

centos7升级systemd并切换cgroup v1到cgroup v2

Linux内核提供了两个版本即cgroupv1和cgroupv2cgroup是Linux内核提供的一种机制,用于限制、记录和隔离进程组的资源使用。它可以控制CPU、内存、IO等系统资源的分配和使用,并且支持动态调整资源限制。使用cgroup技术可以实现多个应用程序之间的资源隔离和保护,从而避免应用程序之间的互相影响和冲突。同时,cgroup还可以用于限制系统服务的资源使用,以避免某个服务占用过多资源导致系统负载过高或崩溃。cgroup技术被广泛应用于容器化技术中,如Docker、Kubernetes等,以帮助用户更好地管理和控制容器的资源使用,提高容...

阅读全文

centos7下程序运行提示报错version `GLIBCXX_3.4.20' not found

目前这个问题只出现centos7上,因为centos7带的glic库版本较低导致程序升级以后,POD启动时报错。容器运行时是我们自己的,看到直接执行该文件直接报错/usr/bin/orion-container-runtime: /lib64/libstdc++.so.6: version `GLIBCXX_3.4.20` not found(required by /lib64/libcndev.so)/usr/bin/orion-container-runtime: ...

阅读全文

centos7安装GUI图形界面

centos安装GUI图形界面主要是安装GnomeGUI包,可以通过yum方式进行直接安装,命令如下yum -y groupinstall "Server with GUI"上述安装完成以后重启操作系统reboot重启以后还是会进入终端的节点,需要手工启动GUI界面startx上述命令执行完成以后发现就直接进入了GUI图形界面如果需要切换回终端页面,需要进入Applications->SystemTools,然后打开Terminal,输入命令进行切换init 3上述...

阅读全文

centos7使用haproxy部署k8s高可用集群

之前我们部署k8s多master高可用集群中使用的代理均衡器是nginx,这次我们使用haproxy来做负载均衡器,之前的笔记也会用到,可以查看之前的笔记:https://sulao.cn/post/953.html直接从之前笔记中的安装nginx处开始,由于此处是使用haproxy替代原来的nginx,所以我们直接安装haproxy,本次笔记和上述笔记基本一致,只有nginx/haproxy和keepalived处略有不同yum install haproxy -y安装完成以后我们现手工添加VIPip addr&...

阅读全文

centos7删除POD一直Terminating无法销毁

目前我的k8s环境容器是使用的containerd,删除POD以后一直terminating,无法销毁,然后查看terminating的POD有以下事件报错  Normal   Killing        8m16s                 &nbs...

阅读全文

python使用toml模块生成containerd下nvidia-container-runtime配置脚本

之前在ubuntu和centos下docker环境配置nvidia-container-runtime可以查看之前笔记centos7:https://sulao.cn/post/942.htmlubuntu:https://sulao.cn/post/919.htmlcontainerd下配置nvidia-container-runtime可以查看这个笔记:https://sulao.cn/post/947.html由于containerd下配置nvidia-container-runtime比较繁琐,所以写了脚本去自动修改使用python修改confi...

阅读全文

centos7下载软件所有依赖包并搭建本地yum仓库

我们很多场景下机器不能联网,但是需要安装软件,安装软件时涉及到很多依赖包的问题,所以记录这个笔记用来解决这个问题我们这里以安装docker为例,下载docker所有的依赖包,然后拷贝到离线环境中去安装yum install -y yum-utils安装docker,首先安装源sudo yum-config-manager --add-repo http://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo列出所有版本yum ...

阅读全文