Tensorflow运行报错'Could not load dynamic library libcudnn.so.8'

Tensorflow运行报错'Couldnotloaddynamiclibrarylibcudnn.so.8',该报错是由于没有cudnn导致,可以在https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html这个页面找到安装方法。cudnn文件可以在https://developer.nvidia.com/rdp/cudnn-archive去下载,注意需要下载对应cuda版本的cudnn我们如果cuda版本是12.0,则下载12.0下对应系统架构的tar...

阅读全文

TensorFlow运行报错illegal instruction (core dumped)

搜索了相关资料,导致该错误可能是没有avx指令集,或者是CPU不支持avx指令集因为我本地是虚拟机上部署的k8s集群,有可能CPU虚拟化没有做指令集的直通,那么我尝试修改KVM虚拟机配置首先我们关闭虚拟机,然后使用virsh命令对虚拟机配置进行修改virsh edit k8s-node2找到  <cpu mode='custom' match='exact' check='none'>   &...

阅读全文

tensorflow保存和加载PB模型文件

谷歌推荐的保存模型的方式是保存模型为PB文件,它具有语言独立性,可独立运行,封闭的序列化格式,任何语言都可以解析它,它允许其他语言和深度学习框架读取、继续训练和迁移TensorFlow的模型它的主要使用场景是实现创建模型与使用模型的解耦,使得前向推导inference的代码统一另外的好处是保存为PB文件时候,模型的变量都会变成固定的,导致模型的大小会大大减小,适合在手机端运行还有一个就是,真正离线测试使用的时候,PB格式的数据能够保证数据不会更新变动,就是不会进行反馈调节保存称为这种PB文件主要使用tf.SaveModelBuilder类来完成...

阅读全文

常用AI框架GPU测试方法

现在工作中经常接触pytorch,tensorflow等AI框架,记录下安装注意事项GPU测试方法1.tensorflow可以在https://tensorflow.google.cn/install页面查看安装说明,注意GPU的机器需要先安装CUDA,每个版本的CUDA都有对应的tensorflow的版本pip install tensorflow==2.6.0不指定即安装最新版本,在2.0以后版本无需区分CPU版本和GPU版本如果是以前的版本需要这样安装GPU版本pip install rensorflow-g...

阅读全文

horovod命令参数解析

Horovod是Uber于2017年发布的一个易于使用的高性能的分布式深度学习训练框架,支持TensorFlow、Keras、PyTorch和ApacheMXNet。Horovod的名字来自于俄国传统民间舞蹈,舞者手牵手围成一个圈跳舞,与分布式训练使用Horovod互相通信的场景很像。Horovod的发展吸取了Facebook"TrainingImageNetIn1Hour"与百度"RingAllreduce"的优点,在保证分布式训练性能的同时,兼顾了前端的简洁和对不同深度学习框架的支持,使用...

阅读全文