Prometheus 是一个开源的系统监控和警报工具包,最初由 SoundCloud 开发。自 2012 年诞生以来,许多公司和组织都采用了 Prometheus,该项目拥有非常活跃的开发者和用户社区。如今,它已成为一个...
在k8s集群中我们会遇到加入进来的很多节点网络接口名字和原来已有网络接口名字不一样的情况,这种情况如果IP不是第一个识别的网络接口那就会使用错误的IP进行通信,导致pod间通信异常,那么解决这种方法的话我们需要修改cal...
此前安装nccl都是通过在线安装,今天来记录下如何编译安装,相对于在线安装本地编译安装对于没有root权限,且没有联网环境的状态下使用。下面我们就来编译下nccl,编译过程比较简单。git clone https://g...
本文环境是ubuntu22.04,需求是部署单master集群,容器要求使用containerd,此前咱们在centos上部署过,也在ubuntu18.04上使用docker部署过,相关的教程可以查看此前的笔记cento...
今天使用ubuntu22.04部署k8s集群,出现了使用yaml部署的时候,再使用yaml进行删除出现了只删除deployment的问题,但是rs和pod都没有被删除和销毁,于是查看kube-controller-man...
我们在使用系统服务管理命令systemctl停止docker的时候出现无法停止的问题,具体问题现象如下:systemctl stop docker Stopping 'docker.service', but its t...
containerd是作为k8s的cri,他总共会用两个目录,一个是数据目录root,另一个是保存状态的目录state,一般我们只用迁移root目录即可。我们有一块新磁盘作为存储磁盘,我们先将磁盘处理一下,然后进行数据迁...
NVIDIA HPC SDK是一套综合的编译器、库和工具,用于GPU加速HPC建模和仿真应用。随着对运行Linux的NVIDIA gpu和x86-64、OpenPOWER或Arm cpu的支持,NVIDIA HPC SD...
NVIDIA HPC-X 是一个综合软件包,包括消息传递接口 (MPI)、对称分层内存 (SHMEM) 和分区全局地址空间 (PGAS) 通信库以及各种加速包。这个功能齐全、经过测试和打包的工具包使 MPI 和 SHME...