ServiceMonitor 是 Prometheus Operator 提供的一种 K8s 自定义资源(CRD),用来 “声明式” 地告诉 Prometheus 要监控哪些 Service,我们此前也记录了一篇部署pr...
我们最近遇到很多系统需要启动很久才能进入系统的情况,实际这个我们如果在有IPMI管理的情况下可以进入虚拟KVM控制台查看到应该是有某些systemd服务异常导致一致卡在某一个阶段导致,当重试多次启动失败以后才会进入系统。...
我们有时会遇到带IB网卡的GPU机器RDMA设备名不一样的问题,这种情况就会影响我们的正常使用,所以这个时候需要我们对RDMA设备名字进行修改注意我们此次涉及到两个名字,一个是RDMA设备名,一个是IB网卡名,他们是不同...
默认 kube-scheduler 用的是 LeastRequested:空闲越多越优先,我们需要改成:MostAllocated(已用越多、得分越高、越优先)。我们目前想根据线上环境调整下策略,实际需求就是使用GPU的...
我的需求是使用loki存储数据,然后最后在grafana中展示,目前grafana已经部署好了,所以我们需要部署loki,我记得我此前工作一家公司是loki+promtail的组合,但是目前查询到promtail没有维护...