此前我们发布了一个基于gpu-burn基准测试的参考笔记,这里也记录下nccl-tests测试的记录,方便后续测试进行参考,测试的环境是单机多卡,因为多机测试的话就会依赖RDMA网络,所以记录单机,分为nvlink和pcie架构进行记录。测试方法直接参考我之前的笔记:https://sulao.cn/post/1068,由于一次不能测试完所有机器,等有测试机会持续更新此篇笔记。
1.pcie版本性能测试
测试功能 | 3090 | 4090/4090D | 5090/5090d | A100/A800 | H100/H800 |
---|---|---|---|---|---|
all_gather_perf | 38.62 | ||||
all_reduce_perf | 40.91 | ||||
alltoall_perf | 28.61 |
2.nvlink版本性能测试
测试功能 | A100/A800 | H100/H800 |
---|---|---|
all_gather_perf | ||
all_reduce_perf | ||
alltoall_perf |
内容版权声明:除非注明,否则皆为本站原创文章。
转载注明出处:https://sulao.cn/post/1109
相关推荐
- 各型号GPU使用gpu-burn和cublasMatmulBench性能测试基准参考
- ubuntu22.04安装nvidia-fabricmanager
- linux编译安装nccl通信库
- linux下开启GPU Direct RDMA(GDR)的方法
- ubuntu使用nvbandwidth测试单节点gpu带宽性能
- ubuntu22.04使用nccl-tests进行单机多卡通信测试
- linux下使用cublasMatmulBench对GPU进行测试
- GPU性能分析工具nsys(Nsight Systems)安装和简单使用
- GPU锁频的方法以及pytorch验证测试代码
- GPU计算能力、驱动、CUDA、架构兼容支持矩阵
评论列表