各型号GPU使用cublasMatmulBench性能测试基准参考

推荐

由于经常涉及到GPU测试,所以这里记录下各个型号GPU性能的基准,主要包含4090/4090D,5090/5090D,A100/A800,H100/H800等卡型号的各个精度性能测试基准,后续如有其他高端卡测试,也将持续记录,测试工具为gpu-burn和cublasMatmulBench,此笔记根据测试情况进行持续更新。

1.4090/4090D 精度测试

精度4090 性能(Gflops/s)4090D 性能(Gflops/s)备注

FP32

47898.176

44593.126

TF32

90016.49778573.657

BF16

173866.569

155224.331

FP8

351186.832

311841.561

2.5090/5090D 精度测试

精度5090 性能(Gflops/s)5090D 性能(Gflops/s)备注
FP3272860.868
TF32124330.565
FP16380687.383
FP8501711.101

3.A100/A800 精度测试

精度A100 性能(Gflops/s)A800 性能(Gflops/s)备注
FP32


19031.129

TF32


148044.012

BF16


295105.414

FP8
不支持

4.H100/H200/H800 精度测试

精度H100 性能(Gflops/s)H200 性能(Gflops/s)H800 性能(Gflops/s)备注
FP32

52670.933


TF32

479290.579


BF16

872562.050


FP8

1609819.227


5.H20 精度测试

精度性能(Gflops/s)备注
FP32

30980.519

TF32

71265.153

BF16

141562.134

FP8

283694.054

6.B200 精度测试

精度性能(Gflops/s)备注
FP3266159.162
TF321069574.682
BF162136413.363
FP8

4401636.398

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://sulao.cn/post/1108

评论列表

0%