由于经常涉及到GPU测试,所以这里记录下各个型号GPU性能的基准,主要包含4090/4090D,5090/5090D,A100/A800,H100/H800等卡型号的各个精度性能测试基准,后续如有其他高端卡测试,也将持续记录,测试工具为gpu-burn和cublasMatmulBench,此笔记根据测试情况进行持续更新。
1.4090/4090D 精度测试
| 精度 | 4090 性能(Gflops/s) | 4090D 性能(Gflops/s) | 备注 |
|---|---|---|---|
FP32 | 47898.176 | 44593.126 | |
TF32 | 90016.497 | 78573.657 | |
BF16 | 173866.569 | 155224.331 | |
FP8 | 351186.832 | 311841.561 |
2.5090/5090D 精度测试
| 精度 | 5090 性能(Gflops/s) | 5090D 性能(Gflops/s) | 备注 |
|---|---|---|---|
| FP32 | 72860.868 | ||
| TF32 | 124330.565 | ||
| FP16 | 380687.383 | ||
| FP8 | 501711.101 |
3.A100/A800 精度测试
| 精度 | A100 性能(Gflops/s) | A800 性能(Gflops/s) | 备注 |
|---|---|---|---|
| FP32 | 19031.129 | ||
| TF32 | 148044.012 | ||
| BF16 | 295105.414 | ||
| FP8 | 不支持 |
4.H100/H200/H800 精度测试
| 精度 | H100 性能(Gflops/s) | H200 性能(Gflops/s) | H800 性能(Gflops/s) | 备注 |
|---|---|---|---|---|
| FP32 | 52670.933 | 52725.601 | ||
| TF32 | 479290.579 | 466594.964 | ||
| BF16 | 872562.050 | 831759.218 | ||
| FP8 | 1609819.227 | 1535545.674 |
5.H20 精度测试
| 精度 | 性能(Gflops/s) | 备注 |
|---|---|---|
| FP32 | 30980.519 | |
| TF32 | 71265.153 | |
| BF16 | 141562.134 | |
| FP8 | 283694.054 |
6.B200 精度测试
| 精度 | 性能(Gflops/s) | 备注 |
|---|---|---|
| FP32 | 66159.162 | |
| TF32 | 1069574.682 | |
| BF16 | 2136413.363 | |
| FP8 | 4401636.398 |
内容版权声明:除非注明,否则皆为本站原创文章。
转载注明出处:https://sulao.cn/post/1108
相关阅读
- GPU服务器dmesg日志报错"Cannot map memory with base addr ..."的解决方案
- AI程序索引越界引起的nvidia-fabricnamage异常问题排查
- 英伟达GPU内核和驱动优化参数介绍
- 英伟达GPU nvidia-smi常用命令详解
- GPU卡住且dmesg日志中打印NVRM: _threadNodecheckTimeout错误排查
- linux下gpu降速问题排查
- ubuntu22.04安装dcgm和基本用法
- RTX 5090在cuda13.0下gpu-burn编译报错的解决方法
- k8s集群部署gpu-operator支持gpu节点自动发现和gpu上报
- ubuntu22.04算力环境基础配置一键验证脚本
评论列表