由于经常使用k8s,所以在遇到退出码含义的时候经常要去查询,所以记录到博客上方便进行查找对应的含义关系。 当一个容器达到 Exited 状态时,Docker 会在日志中报告一个退...
默认的Linux发行版中的内核配置都会开启tmpfs,映射到了/dev/下的shm目录,这个就是共享内存目录,可以通过df命令查看,例如在pod中我们查看默认就是64M。/dev/shm/是linux...
NCCL(NVIDIA Collective Communications Library)是由 NVIDIA 开发的一种高性能的多 GPU 通信库,用于在多个 NVIDIA GPU 之间实现快速的数...
k8s已经支持GPU设备的调度和POD容器挂载,需要做以下配置1.首先我们需要再宿主机安装驱动2.需要安装nvidia-container-runtime3.GPU节点打标签并部署k8s-device...
Linux内核提供了两个版本即cgroup v1和cgroup v2cgroup是Linux内核提供的一种机制,用于限制、记录和隔离进程组的资源使用。它可以控制CPU、内存、IO等系统资源的分配和使用...
目前的工作中会经常用到etcd,使用etcdctl命令有时感觉不是很方便的处理后续数据,所以记录下使用python操作etcd的一些常用方法使用python操作etcd获取单个key会返回data和m...
目前这个问题只出现centos7上,因为centos7带的glic库版本较低导致程序升级以后,POD启动时报错。容器运行时是我们自己的,看到直接执行该文件直接报错/usr/bin/orion-cont...
prometheus 是一个基于golang 编写,编译后的软件包,不依赖于任何的第三方依赖。用户只需要下载对应平台的二进制包,解压并且添加基本的配置即可正常启动Prometheus Server我们...
查看之前笔记没有记录过ntp时间同步相关的笔记,今天我们再重新温习下目前主流的时间同步配置和相关配置的软件目前同步时间主要使用chrony,之前一直是使用ntpd server/client来做,使用...
Supervisor是用Python开发的一个client/server服务,是Linux/Unix系统下的一个进程管理工具,不支持Windows系统。它可以很方便的监听、启动、停止、重启一个或多个进...
前面几篇笔记记录了etcd单机和集群,还有加密集群的部署方式,这篇就是etcd目前学习的最后一篇笔记,记录了etcd集群备份和恢复数据的方法,记录下来方便后面使用还是用之前TLS加密部署的集群,部署方...
我们在使用etcd集群时会遇到某个节点异常无法启动,或者数据损坏的时候,这种情况需要将这个异常节点在etcd集群中剔除并重新加入该集群,具体操作如下。首先我们先去etcd集群找到这个异常节点并删除,假...
一般在生产环境下单机的etcd不满足高可用的需求,所以我们需要部署高可用的etcd集群,确保集群节点数N*2+1,etcd的raft协议可以保障各个节点数据的一致性。我们目前规划集群信息如下:192....
前面一篇我们已经学习了etcd的单机部署,具体可以查看这个笔记:https://sulao.cn/post/962,这篇我们介绍下etcd数据备份与恢复,我们尝试先创建几条数据,备份,然后删除创建的数...
etcd 是云原生架构中重要的基础组件,由 CNCF 孵化托管。etcd 在微服务和 Kubernates 集群中不仅可以作为服务注册与发现,还可以作为 key-value 存储的中间件。今天我们来记...
centos安装GUI图形界面主要是安装Gnome GUI包,可以通过yum方式进行直接安装,命令如下yum -y groupinstall "Server with GUI"上述安装完成以后重启操作...
在私有云部署软件的时候时长没有网络,没有办法安装apt仓库内已有的软件,这个时候我们可以使用光驱或者iso镜像挂载到本地作为apt仓库进行使用,具体操作如下:1.挂载光驱到指定目录作为本地仓库的方法首...
使用GPU的容器运行了一个训练任务,一段时间以后查看训练任务失败,进POD容器内执行nvidia-smi返回"Failed to initialize NVML: Unknown Error"。目前该...