python获取k8s中使用物理卡pod列表脚本

  • 2025-04-02 18:48:20
  • 脚本
  • 27
  • shevechco

在维护算力集群的时候有时候需要统计集群环境中使用GPU卡的POD列表,那么我们经常使用的话这里写了一个脚本方便查询和罗列出这些POD,脚本中主要使用subprocess模块来获取kubectl命令返回的结果,所以执行脚本的节点需要有k8s管理权限,另外还可以使用k8s的python模块,可以查看这个笔记:https://sulao.cn/post/906,脚本内容如下:

#!/usr/bin/python3
#coding: utf-8
import subprocess
import json
import time
import logging
logging.basicConfig(level=logging.DEBUG, format='%(asctime)s %(levelname)s %(filename)s[line:%(lineno)d] %(message)s', datefmt='%Y-%m-%d')

generator_name = "POD.csv" #生成POD文件名
node_list = ["k8s-node1", "k8s-node2"] #检测有gpu卡的所有节点列表

def formmat_out_put(cmd, json_format=False):
    output=subprocess.getoutput(cmd)
    if json_format == False:
        output = output.split('\n')
    return output

def get_running_pod(node_list):
    nodes = "|".join(node_list)
    cmd = "kubectl get pod -A -o wide | grep 'Running' | grep -iE '{}' | awk '{{print $1,$2}}'".format(nodes)
    return formmat_out_put(cmd)

def resource_usage_list():
    native_pod = []
    for p in get_running_pod(node_list):
        cmd = "kubectl get pod -n {} -o json".format(p)
        try:
            ret = json.loads(formmat_out_put(cmd, json_format=True))
            is_astrict = ret["spec"]["containers"][0]["resources"].get("limits", None)
            if is_astrict:
                if is_astrict.get("nvidia.com/gpu", None):
                    native_pod.append(ret["metadata"]["name"])
                else:
                    pass
        except Exception as e:
            logging.error(e)
    return native_pod

if __name__ == "__main__":
    start_time = time.time()
    native_pod = resource_usage_list()
    logging.info("使用物理卡POD列表:")
    for native in native_pod:
        logging.info("[{}]".format(native))
    logging.info("="*150)
    logging.info("Cost time {:.2f}".format(time.time()-start_time))

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.sulao.cn/post/1015

相关推荐