由于经常涉及到GPU测试,所以这里记录下各个型号GPU性能的基准,主要包含4090/4090D,5090/5090D,A100/A800,H100/H800等卡型号的各个精度性能测试基准,后续如有其他高端卡测试,也将持续记录,测试工具为gpu-burn和cublasMatmulBench,此笔记根据测试情况进行持续更新。
1.4090/4090D 性能测试
精度 | 4090/4090D 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | 1264.560/1099.236 | |
FP32 | 47161.043/44593.126 | |
TF32 | 90016.497/78573.657 | |
HHH | 268931.931/256072.221 | |
HSH | 173090.727/97992.346 | |
HSS | 172735.332/96272.205 | |
BF16 | 173258.436/155224.331 | |
FP8 | 349868.208/311841.561 |
2.5090/5090D 性能测试
5090/5090D支持FP4精度
精度 | 5090/5090D 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | 1771.993/ | |
FP32 | 72860.868/ | |
TF32 | 124330.565/ | |
HHH | 380687.383/ | |
HSH | 248269.842/ | |
HSS | 247386.263/ | |
BF16 | 248270.421/ | |
FP8 | 501711.101/ |
3.A100 性能测试
精度 | 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | ||
FP32 | ||
TF32 | ||
HHH | ||
HSH | ||
HSS | ||
BF16 | ||
FP8 |
4.A800 性能测试
精度 | 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | 19408.540 | |
FP32 | 19018.908 | |
TF32 | 147939.395 | |
HHH | 295695.239 | |
HSH | 294966.626 | |
HSS | 293162.521 | |
BF16 | 294968.559 | |
FP8 | 不支持 |
5.H100 性能测试
精度 | 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | 65267.405 | |
FP32 | 52955.030 | |
TF32 | 405211.665 | |
HHH | 817665.475 | |
HSH | 797911.726 | |
HSS | 777163.544 | |
BF16 | 781517.941 | |
FP8 | 1403399.480 |
6.H200 性能测试
精度 | 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | 64923.124 | |
FP32 | 52570.680 | |
TF32 | 459470.270 | |
HHH | 785645.918 | |
HSH | 785070.919 | |
HSS | 773403.702 | |
BF16 | 823442.263 | |
FP8 | 1524281.370 |
7.H800 性能测试
精度 | 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | ||
FP32 | ||
TF32 | ||
HHH | ||
HSH | ||
HSS | ||
BF16 | ||
FP8 |
7.H20 性能测试
精度 | 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | 617.597 | |
FP32 | 30980.519 | |
TF32 | 71265.153 | |
HHH | 143799.763 | |
HSH | 141561.959 | |
HSS | 141531.092 | |
BF16 | 141562.134 | |
FP8 | 283694.054 |
内容版权声明:除非注明,否则皆为本站原创文章。
转载注明出处:https://sulao.cn/post/1108
评论列表