经常要为别人部署一下小规模的测试环境的k8s集群,所以自己写了个脚本方便自己部署使用,配置基本没啥要改的,一键就能部署master,node节点也是一键,只需要手工kubeadm join一下就行。脚本放上来三个1.配置...
发了一个算力环境基础配置的一键脚本,这里将自己写的环境验证脚本也一并发下,方便后面自己使用。#!/bin/bash #set -e function INFO(){ /bin/echo -e "\e[104m\...
自己写的算力环境基础配置一键脚本,方便自己使用,如果普通用户没有免密的话需要输入一次密码,如果是root用户就直接执行#!/bin/bash #set -e CURRENT_PATH=`readlink -f $(di...
此前我们做了一个单机多卡的nccl-tests部署测试脚本,多集卡多卡的我们也需要经常测试,所以这次记录了一个自己用的多机多卡openmpi+nccl+nccl-tests编译安装脚本,注意不含测试,这个脚本最终编译完成...
由于经常需要做测试,所以撰写了一个测试单机多卡的bash脚本,前提需要环境中已经安装nvidia驱动和cuda库,且cuda库安装在默认目录/usr/local/下,然后nccl我是下载的zip包,名字是nccl-mas...
之前我们在ubuntu20.04系统中配置开机启动执行脚本,可以查看这个笔记:https://sulao.cn/post/882由于购买的轻量应用服务器内存只有1G,目前跑了flask,mysql,redis和celer...
对于k8s一中间件的数据进行一键备份,可以在做临时变更或者定期备份的场景下使用,备份mongodb主要使用了mongodump命令,etcd使用snapshot命令,prometheus是添加了--web.enable-...
在k8s集群中,我们偶尔要采集业务pod日志进行日志分析,这些日志都存在于各个组件的pod的指定位置,所以我们撰写了脚本去收集,这种情况也只是用于临时的日志分析和业务状态检测,一般集群中都有各种监控日志采集系统。脚本内容...
在维护算力集群的时候有时候需要统计集群环境中使用GPU卡的POD列表,那么我们经常使用的话这里写了一个脚本方便查询和罗列出这些POD,脚本中主要使用subprocess模块来获取kubectl命令返回的结果,所以执行脚本...
在k8s集群中需要生成一些普通只读账户给平台人员使用,所以这里写了个一键脚本生成只读用户,是基于clusterrole创建的集群级别的用户,权限可以自己根据自己的需求进行修改,脚本内容如下:#!/bin/bash US...