各型号GPU使用nccl-tests单机多卡性能测试基准参考

推荐

这里记录下nccl-tests测试的记录,方便后续测试进行参考,测试的环境是单机多卡,因为多机测试的话就会依赖RDMA网络,所以记录单机,分为sxm和pcie架构进行记录。测试方法直接参考我之前的笔记:https://sulao.cn/post/1068,由于一次不能测试完所有机器,等有测试机会持续更新此篇笔记。

1.PCIE版本性能测试

1.1.4090/4090D 性能测试

测试功能40904090D备注
all_gather_perf

12.79


all_reduce_perf14.99


alltoall_perf

13.50


1.2.5090/5090D 性能测试

测试功能50905090D备注
all_gather_perf40.76
all_reduce_perf40.91
alltoall_perf28.61

1.3.A100/A800 性能测试

测试功能A100A800备注
all_gather_perf
all_reduce_perf
alltoall_perf

1.4.H100/H800 性能测试

测试功能H100H800备注
all_gather_perf
all_reduce_perf
alltoall_perf

2.SXM版本性能测试

2.1.A100/A800 性能测试

测试功能A100A800备注
all_gather_perf

233.81

152.21
all_reduce_perf

221.73

156.53
alltoall_perf

211.14

147.70

2.2.H100/H200/H800 性能测试

测试功能H100H200H800备注
all_gather_perf477.67473.21
all_reduce_perf355.03367.27
alltoall_perf343.59345.64

2.3.H20 性能测试

测试功能H20备注
all_gather_perf354.58
all_reduce_perf479.97
alltoall_perf292.72

2.4.B200 性能测试

测试功能B200备注
all_gather_perf833.68
all_reduce_perf661.80
alltoall_perf656.22

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://sulao.cn/post/1109

评论列表

0%