各型号GPU使用cublasMatmulBench性能测试基准参考

推荐

由于经常涉及到GPU测试,所以这里记录下各个型号GPU性能的基准,主要包含4090/4090D,5090/5090D,A100/A800,H100/H800等卡型号的各个精度性能测试基准,后续如有其他高端卡测试,也将持续记录,测试工具为gpu-burn和cublasMatmulBench,此笔记根据测试情况进行持续更新。

1.4090/4090D 性能测试

精度4090/4090D 性能(Gflops/s)备注

FP64

1264.560/1099.236

FP32

47161.043/44593.126

TF32

90016.497/78573.657

HHH

268931.931/256072.221

HSH

173090.727/97992.346

HSS

172735.332/96272.205

BF16

173258.436/155224.331

FP8

349868.208/311841.561

2.5090/5090D 性能测试

5090/5090D支持FP4精度

精度5090/5090D 性能(Gflops/s)备注
FP641771.993/
FP3272860.868/
TF32124330.565/
HHH380687.383/
HSH248269.842/
HSS247386.263/
BF16248270.421/
FP8501711.101/

3.A100 性能测试

精度性能(Gflops/s)备注
FP64
FP32
TF32
HHH
HSH
HSS
BF16
FP8

4.A800 性能测试

精度性能(Gflops/s)备注
FP64

19408.540

FP32

19018.908

TF32

147939.395

HHH

295695.239

HSH

294966.626

HSS

293162.521

BF16

294968.559

FP8不支持

5.H100 性能测试

精度性能(Gflops/s)备注
FP6465267.405
FP3252955.030
TF32405211.665
HHH817665.475
HSH797911.726
HSS777163.544
BF16781517.941
FP81403399.480

6.H200 性能测试

精度性能(Gflops/s)备注
FP6464923.124
FP3252570.680
TF32459470.270
HHH785645.918
HSH785070.919
HSS773403.702
BF16823442.263
FP81524281.370

7.H800 性能测试

精度性能(Gflops/s)备注
FP64


FP32


TF32


HHH


HSH


HSS


BF16


FP8


7.H20 性能测试

精度性能(Gflops/s)备注
FP64

617.597

FP32

30980.519

TF32

71265.153

HHH

143799.763 

HSH

141561.959

HSS

141531.092

BF16

141562.134

FP8

283694.054

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://sulao.cn/post/1108

评论列表

0%