在Linux系统上使用GPU时,可能会因为GPU的GSP(GPU System Processor)组件运行状态异常,导致GPU卡在初始化时提示失败(例如出现XID 119或XID 120错误信息),本文为您介绍这种情况...
Chrony 在动态环境(如虚拟机、移动网络)中相对于此前我们学习过的ntp时间同步表现更优,尤其适合时间偏差大或网络不稳定的场景,并且ntp默认拒绝客户端与服务器时间差 >1000 秒(约 16.7 分钟)的同步请求,...
今天要配置时间同步服务,发现自己博客还没记录ubuntu22.04上配置的笔记,所以记录下,方便自己后续使用,我们配置一台作为服务端,一台作为client端,server端使用本地时钟源。ntp这个比较老了,推荐ubun...
此前我们在centos7实践过从cgroup v1切换到cgroup v2,那么这次我们的需求是cgroup v2切换到v1,cgroup的介绍可以查看之前的笔记:https://sulao.cn/post/973我们当...
由于我的harbor仓库和k8s所在的服务器经常要关机,今天开机以后k8s启动,k8s上的harbor仓库的harbor-harbor-database-0 POD直接error了,查看日志打印了以下信息:Default...
Cmder是一款为 Windows 用户量身打造的增强型终端模拟器,旨在解决传统 Windows 命令行工具(如 CMD 和 PowerShell)界面简陋、功能受限、用户体验不足等问题。它基于强大的 ConEmu 框架...
使用mdadm工具创建软raid阵列,我们之前学习实践过,可以查看之前的笔记:https://sulao.cn/post/1085,今天我们记录学习下如果软raid阵列中有损坏的盘,我们如何进行替换故障盘。1.创建软ra...
这里记录下nccl-tests测试的记录,方便后续测试进行参考,测试的环境是单机多卡,因为多机测试的话就会依赖RDMA网络,所以记录单机,分为sxm和pcie架构进行记录。测试方法直接参考我之前的笔记:https://s...
由于经常涉及到GPU测试,所以这里记录下各个型号GPU性能的基准,主要包含4090/4090D,5090/5090D,A100/A800,H100/H800等卡型号的各个精度性能测试基准,后续如有其他高端卡测试,也将持续...
我们需求是需要在k8s上部署harbor仓库,因为环境基本用于测试,所以就不太想制作证书之类的,就打算基于http方式,最终暴露端口的方式是使用nodeport方式,另外存储没有网络存储,使用local pv的方式绑定到...
linux下生成密钥使用ssh-keygen命令,生成的方法可以查看我之前的笔记:https://sulao.cn/post/283当遇到系统变化,需要重新生成密钥的情况,客户不愿意更换密码,不能直接拿以前的私钥替换原来...
Prometheus 是一个开源的系统监控和警报工具包,最初由 SoundCloud 开发。自 2012 年诞生以来,许多公司和组织都采用了 Prometheus,该项目拥有非常活跃的开发者和用户社区。如今,它已成为一个...
在k8s集群中我们会遇到加入进来的很多节点网络接口名字和原来已有网络接口名字不一样的情况,这种情况如果IP不是第一个识别的网络接口那就会使用错误的IP进行通信,导致pod间通信异常,那么解决这种方法的话我们需要修改cal...
此前安装nccl都是通过在线安装,今天来记录下如何编译安装,相对于在线安装本地编译安装对于没有root权限,且没有联网环境的状态下使用。下面我们就来编译下nccl,编译过程比较简单。git clone https://g...
本文环境是ubuntu22.04,需求是部署单master集群,容器要求使用containerd,此前咱们在centos上部署过,也在ubuntu18.04上使用docker部署过,相关的教程可以查看此前的笔记cento...
今天使用ubuntu22.04部署k8s集群,出现了使用yaml部署的时候,再使用yaml进行删除出现了只删除deployment的问题,但是rs和pod都没有被删除和销毁,于是查看kube-controller-man...
我们在使用系统服务管理命令systemctl停止docker的时候出现无法停止的问题,具体问题现象如下:systemctl stop docker Stopping 'docker.service', but its t...
containerd是作为k8s的cri,他总共会用两个目录,一个是数据目录root,另一个是保存状态的目录state,一般我们只用迁移root目录即可。我们有一块新磁盘作为存储磁盘,我们先将磁盘处理一下,然后进行数据迁...