各型号GPU使用cublasMatmulBench性能测试基准参考 - 苏老的学习笔记

苏老的学习笔记

|

今日天气

°C
湖北省武汉市汉阳区

分类统计

博文归档

热门推荐

热门标签

各型号GPU使用cublasMatmulBench性能测试基准参考

推荐

发布于2025-07-28 19:08:53 更新于2026-01-25 13:52:49
运维
浏览 870
shevechco
手机浏览
评论数 0

由于经常涉及到GPU测试，所以这里记录下各个型号GPU性能的基准，主要包含4090/4090D，5090/5090D，A100/A800，H100/H800等卡型号的各个精度性能测试基准，后续如有其他高端卡测试，也将持续记录，测试工具为gpu-burn和cublasMatmulBench，此笔记根据测试情况进行持续更新。

1.4090/4090D 精度测试

精度	4090 性能(Gflops/s)	4090D 性能(Gflops/s)	备注
FP32	47898.176	44593.126
TF32	90016.497	78573.657
BF16	173866.569	155224.331
FP8	351186.832	311841.561

2.5090/5090D 精度测试

精度	5090 性能(Gflops/s)	5090D 性能(Gflops/s)	备注
FP32	72860.868
TF32	124330.565
FP16	380687.383
FP8	501711.101

3.A100/A800 精度测试

精度	A100 性能(Gflops/s)	A800 性能(Gflops/s)	备注
FP32		19031.129
TF32		148044.012
BF16		295105.414
FP8		不支持

4.H100/H200/H800 精度测试

精度	H100 性能(Gflops/s)	H200 性能(Gflops/s)	H800 性能(Gflops/s)	备注
FP32	52670.933	52725.601
TF32	479290.579	466594.964
BF16	872562.050	831759.218
FP8	1609819.227	1535545.674

5.H20 精度测试

精度	性能(Gflops/s)	备注
FP32	30980.519
TF32	71265.153
BF16	141562.134
FP8	283694.054

6.B200 精度测试

精度	性能(Gflops/s)	备注
FP32	66159.162
TF32	1069574.682
BF16	2136413.363
FP8	4401636.398

各型号GPU使用nccl-tests单机多卡性能测试基准参考

k8s使用helm部署harbor镜像仓库并使用nodeport方式暴露

内容版权声明：除非注明，否则皆为本站原创文章。

转载注明出处：https://sulao.cn/post/1108

评论列表

相关阅读

常用网站

0%

构建本站 Python Gunicorn Flask LayUI Peewee MySQL Redis Celery

Copyright © 2014-2025 Shevechco 27ms