由于经常涉及到GPU测试,所以这里记录下各个型号GPU性能的基准,主要包含4090/4090D,5090/5090D,A100/A800,H100/H800等卡型号的各个精度性能测试基准,后续如有其他高端卡测试,也将持续记录,测试工具为gpu-burn和cublasMatmulBench,此笔记根据测试情况进行持续更新。
1.4090/4090D 性能测试
gpu-burn测试
精度 | 4090/4090D 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | /1106 | |
FP32 | /50023 | |
Tensor core | /125310 |
cublasMatmulBench测试
精度 | 4090/4090D 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | /1099 | |
FP32 | /44593 | |
TF32 | /78573 | |
HHH | /256072 | |
HSH | /97992 | |
HSS | /96272 | |
BF16 | /155224 | |
FP8 | /311841 |
2.5090/5090D 性能测试
5090/5090D支持FP4精度
gpu-burn测试
精度 | 5090/5090D 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | 1748/ | |
FP32 | 66448/ | |
Tensor core | 111862/ |
cublasMatmulBench测试
精度 | 5090/5090D 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | 1742/ | |
FP32 | 71703/ | |
TF32 | 122550/ | |
HHH | 372874/ | |
HSH | 245091/ | |
HSS | 244290/ | |
BF16 | 245083/ | |
FP8 | 496749/ |
3.A100 性能测试
gpu-burn测试
精度 | 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | ||
FP32 | ||
Tensor core |
cublasMatmulBench测试
精度 | 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | ||
FP32 | ||
TF32 | ||
HHH | ||
HSH | ||
HSS | ||
BF16 | ||
FP8 |
4.A800 性能测试
gpu-burn测试
精度 | 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | 18569 | |
FP32 | 19126 | |
Tensor core | 145519 |
cublasMatmulBench测试
精度 | 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | 19408.540 | |
FP32 | 19018.908 | |
TF32 | 147939.395 | |
HHH | 295695.239 | |
HSH | 294966.626 | |
HSS | 293162.521 | |
BF16 | 294968.559 | |
FP8 | 不支持 |
5.H100 性能测试
gpu-burn测试
精度 | 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | 47966 | |
FP32 | 51581 | |
Tensor core | 344044 |
cublasMatmulBench测试
精度 | 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | 65267.405 | |
FP32 | 52955.030 | |
TF32 | 405211.665 | |
HHH | 817665.475 | |
HSH | 797911.726 | |
HSS | 777163.544 | |
BF16 | 781517.941 | |
FP8 | 1403399.480 |
6.H200 性能测试
gpu-burn测试
精度 | 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | 48180 | |
FP32 | 51053 | |
Tensor core | 351081 |
cublasMatmulBench测试
精度 | 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | 64923.124 | |
FP32 | 52570.680 | |
TF32 | 459470.270 | |
HHH | 785645.918 | |
HSH | 785070.919 | |
HSS | 773403.702 | |
BF16 | 823442.263 | |
FP8 | 1524281.370 |
7.H800 性能测试
gpu-burn测试
精度 | 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | ||
FP32 | ||
Tensor core |
cublasMatmulBench测试
精度 | 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | ||
FP32 | ||
TF32 | ||
HHH | ||
HSH | ||
HSS | ||
BF16 | ||
FP8 |
内容版权声明:除非注明,否则皆为本站原创文章。
转载注明出处:https://sulao.cn/post/1108
相关阅读
- AI应用程序导致GPU异常的常见原因
- 英伟达GPU XID Errors介绍和错误码整理
- 使用GPU时出现XID 119/XID 120错误导致GPU掉卡
- 各型号GPU使用nccl-tests单机多卡性能测试基准参考
- ubuntu22.04安装nvidia-fabricmanager
- linux下开启GPU Direct RDMA(GDR)的方法
- ubuntu使用nvbandwidth测试单节点gpu带宽性能
- nvidia-peermem和dmabuf两种GDR方式的区别
- ubuntu22.04使用nccl-tests进行单机多卡通信测试
- 使用OSU micro benchmark做openmpi通讯性能测试
评论列表