各型号GPU使用nccl-tests单机多卡性能测试基准参考

推荐

这里记录下nccl-tests测试的记录,方便后续测试进行参考,测试的环境是单机多卡,因为多机测试的话就会依赖RDMA网络,所以记录单机,分为sxm和pcie架构进行记录。测试方法直接参考我之前的笔记:https://sulao.cn/post/1068,由于一次不能测试完所有机器,等有测试机会持续更新此篇笔记。

1.PCIE版本性能测试

1.1.4090/4090D 性能测试

测试功能4090备注
all_reduce_perf

14.99

all_gather_perf12.79
alltoall_perf

13.50

1.2.5090/5090D 性能测试

测试功能5090备注
all_reduce_perf40.76
all_gather_perf38.15
alltoall_perf32.63

1.3.A100/A800 性能测试

测试功能A100A800备注
all_gather_perf
all_reduce_perf
alltoall_perf

1.4.H100/H800 性能测试

测试功能H100H800备注
all_gather_perf
all_reduce_perf
alltoall_perf

2.SXM版本性能测试

2.1.A100/A800 性能测试

测试功能A100A800备注
all_gather_perf

233.81

156.53
all_reduce_perf

224.04

152.21
alltoall_perf

210.79

147.70

2.2.H100/H200/H800 性能测试

测试功能H100H200H800备注
all_reduce_perf480.56
all_gather_perf359.53
alltoall_perf346.32

2.3.H20 性能测试

测试功能H20备注
all_reduce_perf479.97
all_gather_perf354.58
alltoall_perf292.72

2.4.B200 性能测试

测试功能B200备注
all_reduce_perf833.68
all_gather_perf661.80
alltoall_perf656.22

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://sulao.cn/post/1109

评论列表

0%