此前我们发布了一个基于gpu-burn基准测试的参考笔记,这里也记录下nccl-tests测试的记录,方便后续测试进行参考,测试的环境是单机多卡,因为多机测试的话就会依赖RDMA网络,所以记录单机,分为nvlink和pcie架构进行记录。测试方法直接参考我之前的笔记:https://sulao.cn/post/1068,由于一次不能测试完所有机器,等有测试机会持续更新此篇笔记。
1.pcie版本性能测试
测试功能 | 4090/4090D | 5090/5090d | A100/A800 |
---|---|---|---|
all_gather_perf | 12.79 | 38.62 | |
all_reduce_perf | 14.99 | 40.91 | |
alltoall_perf | 13.50 | 28.61 |
2.nvlink版本性能测试
测试功能 | A100/A800 | H100/H200/H800 |
---|---|---|
all_gather_perf | /152.21 | 477.67/473.21/ |
all_reduce_perf | /156.53 | 355.03/367.27/ |
alltoall_perf | /147.70 | 343.59/345.64/ |
内容版权声明:除非注明,否则皆为本站原创文章。
转载注明出处:https://sulao.cn/post/1109
评论列表