由于经常涉及到GPU测试,所以这里记录下各个型号GPU性能的基准,主要包含3090,4090/4090D,5090/5090D,A100/A800,H100/H800等卡型号的各个精度性能测试基准,测试工具为gpu-burn和cublasMatmulBench,此笔记根据测试情况进行持续更新。
1.4090/4090D性能测试
gpu-burn测试
精度 | 4090/4090D 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | /1106 | |
FP32 | /50023 | |
Tensor core | /125310 |
cublasMatmulBench测试
精度 | 4090/4090D 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | /1099 | |
FP32 | /44593 | |
TF32 | /78573 | |
hhh | /256072 | |
hsh | /97992 | |
hss | /96272 | |
BF16 | /155224 | |
FP8 | /311841 |
2.5090/5090D性能测试
5090/5090D支持FP4精度
gpu-burn测试
精度 | 5090/5090D 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | 1736 | |
FP32 | 66571 | |
Tensor core | 111940 |
cublasMatmulBench测试
精度 | 5090/5090D 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | ||
FP32 | ||
TF32 | ||
hhh | ||
hsh | ||
hss | ||
BF16 | ||
FP8 |
3.A100/A800性能测试
gpu-burn测试
精度 | A100/A800 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | ||
FP32 | ||
Tensor core |
cublasMatmulBench测试
精度 | A100/A800 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | ||
FP32 | ||
TF32 | ||
hhh | ||
hsh | ||
hss | ||
BF16 | ||
FP8 |
4.H100/H800性能测试
gpu-burn测试
精度 | H100/H800 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | ||
FP32 | ||
Tensor core |
cublasMatmulBench测试
精度 | H100/H800 性能(Gflops/s) | 备注 |
---|---|---|
FP64 | ||
FP32 | ||
TF32 | ||
hhh | ||
hsh | ||
hss | ||
BF16 | ||
FP8 |
内容版权声明:除非注明,否则皆为本站原创文章。
转载注明出处:https://sulao.cn/post/1108
相关推荐
- ubuntu22.04安装nvidia-fabricmanager
- linux下开启GPU Direct RDMA(GDR)的方法
- ubuntu使用nvbandwidth测试单节点gpu带宽性能
- 使用OSU micro benchmark做openmpi通讯性能测试
- linux下使用cublasMatmulBench对GPU进行测试
- GPU性能分析工具nsys(Nsight Systems)安装和简单使用
- GPU锁频的方法以及pytorch验证测试代码
- GPU计算能力、驱动、CUDA、架构兼容支持矩阵
- GPU计算能力(Compute Capability)对照表
- ubuntu22.04使用gpu-burn进行gpu显卡测试
评论列表