之前ubuntu安装的可以查看之前笔记:https://sulao.cn/post/916centos上安装也很简单,首先设置存储库和 GPG 密钥distribution=$(. /etc/os-release;ech...
首先安装一些必要的依赖包yum install -y pciutils gcc gcc-c++ gcc-gfortran使用lspci命令检查是否有nvidia硬件lspci | grep -i nvidia关闭nouv...
之前我们学习了创建基于集群级别的账号和管理配置的方法,具体可以查看这个笔记:https://sulao.cn/post/936实际在k8s的使用过程中,我们通常以命名空间来隔离项目或者团队,那么这个时候就有一些需求,就是...
当程序出错或者异常退出的时候,满足一定条件会产生coredump,并产生core文件,当然有时也不会生成,会提示coredump,这时我们需要对环境进行配置才会产生core文件。首先我们需要通过ulimit敏玲查看cor...
我们的环境是centos7,可以去官网下载指定版本的cuda库:https://developer.nvidia.com/cuda-toolkit-archive,我们这里以12.0的cuda库为例。wget https...
Tensorflow运行报错'Could not load dynamic library libcudnn.so.8',该报错是由于没有cudnn导致,可以在https://docs.nvidia.com/deeple...
我们有时需要添加一些自定义域名在k8s集群环境中使用,那么这时候域名解析需要依赖K8s内部的dns域名服务器来解析。例如我们提供了一个nfs服务器,但是提供的nfs服务器不是IP,而是域名,这个时候这个域名是外部的,而不...
我们使用docker时也会遇到镜像commit超过最大层数的问题,所以解决这个问题的前提是我们需要了解怎么样查看镜像构造和层级目前docker 构建镜像最大是127层,在docker build时基本每行命令都是一层,再...