我目前测试多机多卡的nccl-tests测试都是使用的同一个编译脚本,编译的参数都是一致,所以今天这个问题很奇怪,我在使用openmpi+nccl-tests多机多卡测试有以下输出,然后程序就结束了。A compress...
此前我们做了一个单机多卡的nccl-tests部署测试脚本,多集卡多卡的我们也需要经常测试,所以这次记录了一个自己用的多机多卡openmpi+nccl+nccl-tests编译安装脚本,注意不含测试,这个脚本最终编译完成...
由于经常需要做测试,所以撰写了一个测试单机多卡的bash脚本,前提需要环境中已经安装nvidia驱动和cuda库,且cuda库安装在默认目录/usr/local/下,然后nccl我是下载的zip包,名字是nccl-mas...
这里记录下nccl-tests测试的记录,方便后续测试进行参考,测试的环境是单机多卡,因为多机测试的话就会依赖RDMA网络,所以记录单机,分为sxm和pcie架构进行记录。测试方法直接参考我之前的笔记:https://s...