python获取k8s中使用物理卡pod列表脚本
- 2025-04-02 18:48:20
- 脚本
- 27
- shevechco
在维护算力集群的时候有时候需要统计集群环境中使用GPU卡的POD列表,那么我们经常使用的话这里写了一个脚本方便查询和罗列出这些POD,脚本中主要使用subprocess模块来获取kubectl命令返回的结果,所以执行脚本的节点需要有k8s管理权限,另外还可以使用k8s的python模块,可以查看这个笔记:https://sulao.cn/post/906,脚本内容如下:
#!/usr/bin/python3
#coding: utf-8
import subprocess
import json
import time
import logging
logging.basicConfig(level=logging.DEBUG, format='%(asctime)s %(levelname)s %(filename)s[line:%(lineno)d] %(message)s', datefmt='%Y-%m-%d')
generator_name = "POD.csv" #生成POD文件名
node_list = ["k8s-node1", "k8s-node2"] #检测有gpu卡的所有节点列表
def formmat_out_put(cmd, json_format=False):
output=subprocess.getoutput(cmd)
if json_format == False:
output = output.split('\n')
return output
def get_running_pod(node_list):
nodes = "|".join(node_list)
cmd = "kubectl get pod -A -o wide | grep 'Running' | grep -iE '{}' | awk '{{print $1,$2}}'".format(nodes)
return formmat_out_put(cmd)
def resource_usage_list():
native_pod = []
for p in get_running_pod(node_list):
cmd = "kubectl get pod -n {} -o json".format(p)
try:
ret = json.loads(formmat_out_put(cmd, json_format=True))
is_astrict = ret["spec"]["containers"][0]["resources"].get("limits", None)
if is_astrict:
if is_astrict.get("nvidia.com/gpu", None):
native_pod.append(ret["metadata"]["name"])
else:
pass
except Exception as e:
logging.error(e)
return native_pod
if __name__ == "__main__":
start_time = time.time()
native_pod = resource_usage_list()
logging.info("使用物理卡POD列表:")
for native in native_pod:
logging.info("[{}]".format(native))
logging.info("="*150)
logging.info("Cost time {:.2f}".format(time.time()-start_time))
内容版权声明:除非注明,否则皆为本站原创文章。