发了一个算力环境基础配置的一键脚本,这里将自己写的环境验证脚本也一并发下,方便后面自己使用。#!/bin/bash #set -e HOST_LIST=('10.7.0.12 blog') function INFO...
自己写的算力环境基础配置一键脚本,方便自己使用,需要提前配置好用户的sudo免密权限,如果是root用户就直接执行#!/bin/bash #set -e CURRENT_PATH=`readlink -f $(dirn...
此前我们做了一个单机多卡的nccl-tests部署测试脚本,多集卡多卡的我们也需要经常测试,所以这次记录了一个自己用的多机多卡openmpi+nccl+nccl-tests编译安装脚本,注意不含测试,这个脚本最终编译完成...
由于经常需要做测试,所以撰写了一个测试单机多卡的bash脚本,前提需要环境中已经安装nvidia驱动和cuda库,且cuda库安装在默认目录/usr/local/下,然后nccl我是下载的zip包,名字是nccl-mas...
之前我们在ubuntu20.04系统中配置开机启动执行脚本,可以查看这个笔记:https://sulao.cn/post/882由于购买的轻量应用服务器内存只有1G,目前跑了flask,mysql,redis和celer...
对于k8s一中间件的数据进行一键备份,可以在做临时变更或者定期备份的场景下使用,备份mongodb主要使用了mongodump命令,etcd使用snapshot命令,prometheus是添加了--web.enable-...
在k8s集群中,我们偶尔要采集业务pod日志进行日志分析,这些日志都存在于各个组件的pod的指定位置,所以我们撰写了脚本去收集,这种情况也只是用于临时的日志分析和业务状态检测,一般集群中都有各种监控日志采集系统。脚本内容...
在维护算力集群的时候有时候需要统计集群环境中使用GPU卡的POD列表,那么我们经常使用的话这里写了一个脚本方便查询和罗列出这些POD,脚本中主要使用subprocess模块来获取kubectl命令返回的结果,所以执行脚本...
在k8s集群中需要生成一些普通只读账户给平台人员使用,所以这里写了个一键脚本生成只读用户,是基于clusterrole创建的集群级别的用户,权限可以自己根据自己的需求进行修改,脚本内容如下:#!/bin/bash US...
之前手工配置过contianerd的仓库,配置有些繁琐,具体可以查看这个笔记,现在写了个脚本去修改,脚本内容如下:#!/usr/bin/python3 #coding: utf-8 import toml import ...