各型号GPU使用gpu-burn和cublasMatmulBench性能测试基准参考

推荐

由于经常涉及到GPU测试,所以这里记录下各个型号GPU性能的基准,主要包含4090/4090D,5090/5090D,A100/A800,H100/H800等卡型号的各个精度性能测试基准,后续如有其他高端卡测试,也将持续记录,测试工具为gpu-burn和cublasMatmulBench,此笔记根据测试情况进行持续更新。

1.4090/4090D 性能测试

gpu-burn测试

精度4090/4090D 性能(Gflops/s)备注
FP64/1106
FP32/50023
Tensor core/125310

cublasMatmulBench测试

精度4090/4090D 性能(Gflops/s)备注

FP64

/1099

FP32

/44593

TF32

/78573

HHH

/256072

HSH

/97992

HSS

/96272

BF16

/155224

FP8

/311841

2.5090/5090D 性能测试

5090/5090D支持FP4精度

gpu-burn测试

精度5090/5090D 性能(Gflops/s)备注
FP641748/
FP3266448/
Tensor core111862/

cublasMatmulBench测试

精度5090/5090D 性能(Gflops/s)备注
FP641742/
FP3271703/
TF32122550/
HHH372874/
HSH245091/
HSS244290/
BF16245083/
FP8496749/

3.A100 性能测试

gpu-burn测试

精度性能(Gflops/s)备注
FP64
FP32
Tensor core

cublasMatmulBench测试

精度性能(Gflops/s)备注
FP64
FP32
TF32
HHH
HSH
HSS
BF16
FP8

4.A800 性能测试

gpu-burn测试

精度性能(Gflops/s)备注
FP64

18569

FP3219126
Tensor core

145519

cublasMatmulBench测试

精度性能(Gflops/s)备注
FP64

19408.540

FP32

19018.908

TF32

147939.395

HHH

295695.239

HSH

294966.626

HSS

293162.521

BF16

294968.559

FP8不支持

5.H100 性能测试

gpu-burn测试

精度性能(Gflops/s)备注
FP6447966
FP3251581
Tensor core344044

cublasMatmulBench测试

精度性能(Gflops/s)备注
FP6465267.405
FP3252955.030
TF32405211.665
HHH817665.475
HSH797911.726
HSS777163.544
BF16781517.941
FP81403399.480

6.H200 性能测试

gpu-burn测试

精度性能(Gflops/s)备注
FP6448180
FP3251053
Tensor core351081

cublasMatmulBench测试

精度性能(Gflops/s)备注
FP6464923.124
FP3252570.680
TF32459470.270
HHH785645.918
HSH785070.919
HSS773403.702
BF16823442.263
FP81524281.370

7.H800 性能测试

gpu-burn测试

精度性能(Gflops/s)备注
FP64
FP32
Tensor core

cublasMatmulBench测试

精度性能(Gflops/s)备注
FP64


FP32


TF32


HHH


HSH


HSS


BF16


FP8


内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://sulao.cn/post/1108

评论列表

0%