这里记录下nccl-tests测试的记录,方便后续测试进行参考,测试的环境是单机多卡,因为多机测试的话就会依赖RDMA网络,所以记录单机,分为sxm和pcie架构进行记录。测试方法直接参考我之前的笔记:https://sulao.cn/post/1068,由于一次不能测试完所有机器,等有测试机会持续更新此篇笔记。
1.PCIE版本性能测试
1.1.4090/4090D 性能测试
| 测试功能 | 4090 | 4090D | 备注 |
|---|---|---|---|
| all_gather_perf | 12.79 | ||
| all_reduce_perf | 14.99 | ||
| alltoall_perf | 13.50 |
1.2.5090/5090D 性能测试
| 测试功能 | 5090 | 5090D | 备注 |
|---|---|---|---|
| all_gather_perf | 40.76 | ||
| all_reduce_perf | 40.91 | ||
| alltoall_perf | 28.61 |
1.3.A100/A800 性能测试
| 测试功能 | A100 | A800 | 备注 |
|---|---|---|---|
| all_gather_perf | |||
| all_reduce_perf | |||
| alltoall_perf |
1.4.H100/H800 性能测试
| 测试功能 | H100 | H800 | 备注 |
|---|---|---|---|
| all_gather_perf | |||
| all_reduce_perf | |||
| alltoall_perf |
2.SXM版本性能测试
2.1.A100/A800 性能测试
| 测试功能 | A100 | A800 | 备注 |
|---|---|---|---|
| all_gather_perf | 233.81 | 152.21 | |
| all_reduce_perf | 221.73 | 156.53 | |
| alltoall_perf | 211.14 | 147.70 |
2.2.H100/H200/H800 性能测试
| 测试功能 | H100 | H200 | H800 | 备注 |
|---|---|---|---|---|
| all_gather_perf | 477.67 | 473.21 | ||
| all_reduce_perf | 355.03 | 367.27 | ||
| alltoall_perf | 343.59 | 345.64 |
2.3.H20 性能测试
| 测试功能 | H20 | 备注 |
|---|---|---|
| all_gather_perf | 354.58 | |
| all_reduce_perf | 479.97 | |
| alltoall_perf | 292.72 |
2.4.B200 性能测试
| 测试功能 | B200 | 备注 |
|---|---|---|
| all_gather_perf | 833.68 | |
| all_reduce_perf | 661.80 | |
| alltoall_perf | 656.22 |
内容版权声明:除非注明,否则皆为本站原创文章。
转载注明出处:https://sulao.cn/post/1109
相关阅读
- openmpi编译缺少libz压缩库导致的多机多卡测试失败问题解决方法
- GPU未开启持久模式导致GPU卡住且dmesg日志中打印NVRM: _threadNodecheckTimeout错误
- linux下gpu降速问题排查
- ubuntu22.04安装dcgm和基本用法
- RTX 5090在cuda13.0下gpu-burn编译报错的解决方法
- k8s集群部署gpu-operator支持gpu节点自动发现和gpu上报
- ubuntu22.04算力环境基础配置一键验证脚本
- ubuntu22.04算力环境基础配置一键脚本
- nccl-tests多机多卡测试环境一键编译部署脚本
- nccl-tests英伟达GPU单机多卡一键测试脚本
评论列表