杂记 - 苏老的学习笔记

nvidia-peermem和dmabuf两种GDR方式的区别

NCCL 的源码中，具有两种方式的 GDR，nvidia-peermem和dmabuf，在注册收发缓冲区时会优先选择后面一种方式。源码注释中的nv_peermem和nvidia-peermem是同一个东西，在不同版本的叫...

荐 GPU计算能力、驱动、CUDA、架构兼容支持矩阵

CUDA驱动程序提供向后兼容的API。因此，新的NVIDIA驱动程序将始终与旧的CUDA工具包一起工作。这里记录了CUDA的这种行为。然而，每个CUDA工具包都需要最低版本的NVIDIA驱动程序。因此，当使用诸如NVID...

gpu
cuda

荐 GPU计算能力(Compute Capability)对照表

计算能力（CC）定义了每个NVIDIA GPU架构的硬件特性和支持的指令。在下表中查找您的GPU的计算能力。对于传统GPU，请参考传统CUDA GPU计算能力。有些卡没有找到，但是你可以通过命令查询卡的计算力，使用如下命...

nccl常用环境变量整理

之前我们有学习过nccl的部署和ncc-test工具的使用，我们可以查看之前的笔记：https://sulao.cn/post/988今天我们就根据nccl官网文档https://docs.nvidia.com/deep...

nccl

荐评估AI模型需要gpu显存资源

我们通常看到发布的开源模型都会有写10b,17b,100b等等这些数字，这些都是指的模型参数规模，现在大模型参数从原来的亿级暴增至几百亿，这些由于现在gpu性能的大幅提升以及应用对模型的性能需求，导致了参数规模爆发式增长...

ai
gpu

linux中cpu的load和idle的区别

在Linux系统中，load和idle是衡量CPU忙闲状态的两个重要指标，它们从不同的角度反映了CPU的使用情况。1.loadload是指系统在特定时间间隔内运行的平均进程数。它反映了CPU的工作负荷，具体数值可以从/p...

模型内部构成和组成详解

模型内部的结构和组成因类型而异，但以常见的深度学习模型（如神经网络）为例，其核心组成部分和机制可以总结如下：1.基本结构组件输入层（Input Layer）：接收原始数据（如文本、图像、数值），并将其转换为模型可处理的格...

模型

荐模型训练过程以及如何调整优化训练任务

大模型通常指的大语言模型，这个大主要体现在规模上，一般指的参数规模和包含更复杂的神经网络架构，目前模型主要有包括Transformer、卷积神经网络（CNN）和循环神经网络（RNN）这几种模型架构。一般模型训练是为了通过...

荐英伟达GPU配置MIG实例和原理介绍

MIG通过虚拟地将单个物理GPU划分为更小的独立实例，这项技术涉及GPU虚拟化，GPU的资源，包括CUDA内核和内存，被分配到不同的实例。这些实例彼此隔离，确保在一个实例上运行的任务不会干扰其他实例。使用MIG，每个实例...

Nvidia Device PLugin工作原理机制

我们在k8s使用英伟达GPU时想让POD自动挂载我们需要部署nvidia-device-plugin组件，如何部署使用可以查看我之前的笔记：https://sulao.cn/post/975英伟达的device plug...

目前主流几种GPU共享技术原理

目前市面上有很多GPU共享技术，在GPU共享的模式下，在用户态共享和内核态进行共享是不一样的，根据以下视图，越往底层，共享对用户的影响越小，安全性也能对应提升。下面我就来简单介绍下目前GPU共享的一些技术1.CUDA劫持...

GPU虚拟化MIG和vGPU技术对比

在 vGPU 模式下，GPU 上的内存是静态分区的，但计算能力在共享 GPU 的 VM 之间分时共享。在这种模式下，当虚拟机在 GPU 上运行时，它“拥有” GPU 的所有计算能力，但只能访问其共享的 GPU 内存。在 ...

深度学习基础Epoch/batchsize/iterations等词解析

神经网络的训练梯度下降法学习率：步长更大= 学习率更高误差函数不断减小。如果训练数据过多，无法一次性将所有数据送入计算。现将数据分成几个部分： batch分多个 batch , 逐一送入计算训练Epoch一个epoc...

动态库和静态库的区别

静态库和动态库最本质的区别就是：该库是否被编译进目标（程序）内部。静态（函数）库一般扩展名为（.a或.lib）,这类的函数库通常扩展名为libxxx.a或xxx.lib 。这类库在编译的时候会直接整合到目标程序中，所以利...

常见微服务注册中心对比

服务注册中心本质上是为了解耦服务提供者和服务消费者。对于任何一个微服务，原则上都应存在或者支持多个提供者，这是由微服务的分布式属性决定的。更进一步，为了支持弹性扩缩容特性，一个微服务的提供者的数量和分布往往是动态变化的，...

service

微服务和基于Istio架构的服务网格介绍

微服务会将应用程序分解为多个较小的服务组件。与传统的一体化（Monolithic）架构相比，微服务架构将每个微服务视为独立的实体与模块，从根本上有助于简化代码和相关基础架构的维护。应用程序的每个微服务都可以编写在不同的技...

istio

蓝绿发布和灰度发布

在一般情况下，升级服务器端应用，需要将应用源码或程序包上传到服务器，然后停止掉老版本服务，再启动新版本。但是这种简单的发布方式存在两个问题，一方面，在新版本升级过程中，服务是暂时中断的，另一方面，如果新版本有BUG，升级...

release

Windowns系统原版安装及序列号

由于经常要用，记录下windows原版下载地址和安装过程，还有序列号windows商业版下载地址：ed2k://|file|cn_windows_10_business_editions_version_1909_x86...

windows

kubernetes集群联邦

集群联邦 Federation 的目的是实现单一集群统一管理多个kubernetes集群的机制。这些集群可以是跨地域的，跨云厂商的或者是用户内部自建集群。一旦集群建立联邦后，就可以使用集群 Federation AP...

k8s发布应用的过程

k8s发布应用几本有以下6个过程1.制作镜像2.控制器管理podDeployment：无状态部署，例如Web，微服务，API StatefulSet：有状态部署，例如数据库，ZK，ETCD DaemonSet：守护进程部...

k8s
pod

今日天气

分类统计

博文归档

7篇

5篇

3篇

1篇

2篇

8篇

6篇

7篇

3篇

12篇

15篇

43篇

热门推荐

热门标签

nvidia-peermem和dmabuf两种GDR方式的区别

荐 GPU计算能力、驱动、CUDA、架构兼容支持矩阵

荐 GPU计算能力(Compute Capability)对照表

nccl常用环境变量整理

荐评估AI模型需要gpu显存资源

linux中cpu的load和idle的区别

模型内部构成和组成详解

荐模型训练过程以及如何调整优化训练任务

荐英伟达GPU配置MIG实例和原理介绍

Nvidia Device PLugin工作原理机制

目前主流几种GPU共享技术原理

GPU虚拟化MIG和vGPU技术对比

深度学习基础Epoch/batchsize/iterations等词解析

动态库和静态库的区别

常见微服务注册中心对比

微服务和基于Istio架构的服务网格介绍

蓝绿发布和灰度发布

Windowns系统原版安装及序列号

kubernetes集群联邦

k8s发布应用的过程

常用网站

今日天气

分类统计

博文归档

7篇

5篇

3篇

1篇

2篇

8篇

6篇

7篇

3篇

12篇

15篇

43篇

热门推荐

热门标签

荐 GPU计算能力、驱动、CUDA、架构兼容支持矩阵

荐 GPU计算能力(Compute Capability)对照表

荐 评估AI模型需要gpu显存资源

荐 模型训练过程以及如何调整优化训练任务

荐 英伟达GPU配置MIG实例和原理介绍

常用网站

荐评估AI模型需要gpu显存资源

荐模型训练过程以及如何调整优化训练任务

荐英伟达GPU配置MIG实例和原理介绍