tensorflow_苏老的学习笔记

Tensorflow运行报错'Could not load dynamic library libcudnn.so.8'

作者：shevechco 日期：2023-11-30 分类：GPU/AI笔记浏览：430次评论：0条

Tensorflow运行报错'Couldnotloaddynamiclibrarylibcudnn.so.8'，该报错是由于没有cudnn导致，可以在https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html这个页面找到安装方法。cudnn文件可以在https://developer.nvidia.com/rdp/cudnn-archive去下载，注意需要下载对应cuda版本的cudnn我们如果cuda版本是12.0，则下载12.0下对应系统架构的tar...

阅读全文

安装tensorflow报错Cannot uninstall 'warpt'的解决办法

作者：shevechco 日期：2023-03-16 分类：GPU/AI笔记浏览：565次评论：0条

今天安装tensorflow有如下报错pip install tensorflow 报错：ERROR: Cannot uninstall 'wrapt'. It is a distutils installed project and thus we cannot accurately determine which files b...

阅读全文

TensorFlow运行报错illegal instruction (core dumped)

作者：shevechco 日期：2022-08-30 分类：GPU/AI笔记浏览：809次评论：0条

搜索了相关资料，导致该错误可能是没有avx指令集，或者是CPU不支持avx指令集因为我本地是虚拟机上部署的k8s集群，有可能CPU虚拟化没有做指令集的直通，那么我尝试修改KVM虚拟机配置首先我们关闭虚拟机，然后使用virsh命令对虚拟机配置进行修改virsh edit k8s-node2找到 <cpu mode='custom' match='exact' check='none'> &...

阅读全文

tensorflow保存和加载PB模型文件

作者：shevechco 日期：2022-07-18 分类：GPU/AI笔记浏览：1268次评论：0条

谷歌推荐的保存模型的方式是保存模型为PB文件，它具有语言独立性，可独立运行，封闭的序列化格式，任何语言都可以解析它，它允许其他语言和深度学习框架读取、继续训练和迁移TensorFlow的模型它的主要使用场景是实现创建模型与使用模型的解耦，使得前向推导inference的代码统一另外的好处是保存为PB文件时候，模型的变量都会变成固定的，导致模型的大小会大大减小，适合在手机端运行还有一个就是，真正离线测试使用的时候，PB格式的数据能够保证数据不会更新变动，就是不会进行反馈调节保存称为这种PB文件主要使用tf.SaveModelBuilder类来完成...

阅读全文

常用AI框架GPU测试方法

作者：shevechco 日期：2022-04-25 分类：GPU/AI笔记浏览：690次评论：0条

现在工作中经常接触pytorch，tensorflow等AI框架，记录下安装注意事项GPU测试方法1.tensorflow可以在https://tensorflow.google.cn/install页面查看安装说明，注意GPU的机器需要先安装CUDA，每个版本的CUDA都有对应的tensorflow的版本pip install tensorflow==2.6.0不指定即安装最新版本，在2.0以后版本无需区分CPU版本和GPU版本如果是以前的版本需要这样安装GPU版本pip install rensorflow-g...

阅读全文

horovod命令参数解析

作者：shevechco 日期：2022-04-18 分类：GPU/AI笔记浏览：1179次评论：0条

Horovod是Uber于2017年发布的一个易于使用的高性能的分布式深度学习训练框架，支持TensorFlow、Keras、PyTorch和ApacheMXNet。Horovod的名字来自于俄国传统民间舞蹈，舞者手牵手围成一个圈跳舞，与分布式训练使用Horovod互相通信的场景很像。Horovod的发展吸取了Facebook"TrainingImageNetIn1Hour"与百度"RingAllreduce"的优点，在保证分布式训练性能的同时，兼顾了前端的简洁和对不同深度学习框架的支持，使用...

阅读全文