CUDA/NCCL/NVlink实现GPU之间的通信/GPU不同架构解读-编程阁

CUDA解读

NCCL解读

NCCL 是NVIDIA Collective Communications Library的缩写

读法就是：妮蔻（NCCL）

参考视频：

https://www.bilibili.com/video/BV1SWpXe2Epa/?spm_id_from=333.337.search-card.all.click&vd_source=132c74f7a893f6ef64b723d9600c40b7https://www.bilibili.com/video/BV1SWpXe2Epa/?spm_id_from=333.337.search-card.all.click&vd_source=132c74f7a893f6ef64b723d9600c40b7

单GPU的训练流程

DP：数据并行，其中GPU之间的通信就是通过NCCL实现的

GPU之间的通讯又分为节点内的通讯和节点之间的通讯

查看机器上GPU的连接方式：

nvidia-smi topo --matrix

可以看到4090显卡是不支持NVlink的

PCIe介绍

peripheral 次要的，附带的；外围的，周边的；（计算机设备）外围的

NCCL P2P介绍

禁用P2P代码：

export NCCL_P2P_DISABLE=1

NVLink介绍

https://www.bilibili.com/video/BV193BBYYEaG?spm_id_from=333.788.videopod.sections&vd_source=132c74f7a893f6ef64b723d9600c40b7https://www.bilibili.com/video/BV193BBYYEaG?spm_id_from=333.788.videopod.sections&vd_source=132c74f7a893f6ef64b723d9600c40b7

NVSwitch介绍

GPU不同架构

https://www.bilibili.com/video/BV1x24y1F7kY?spm_id_from=333.788.videopod.sections&vd_source=132c74f7a893f6ef64b723d9600c40b7https://www.bilibili.com/video/BV1x24y1F7kY?spm_id_from=333.788.videopod.sections&vd_source=132c74f7a893f6ef64b723d9600c40b7

2020年就有A100了

pascal架构第一次提出了NVlink

Volta架构

第一次提出了tensor core

Volta架构上面就是卖的工作站DGX

这是 NVIDIA 用来命名其高性能深度学习工作站和服务器的系列品牌，专门面向 AI 训练和推理任务

Turing架构

Turing架构主要是有光线追踪效果 RT core

RTX系列是 NVIDIA 用来命名支持实时光线追踪 (Ray Tracing)的显卡系列的品牌，强调其在光线追踪和高级图形渲染上的能力

Ampere架构

A100

Hopper架构

Hopper架构是4nm的芯片

Hopper是耶鲁大学第一位女博士

更新的一些架构的介绍：

https://www.bilibili.com/video/BV1LGodYaE6r/?spm_id_from=333.337.search-card.all.click&vd_source=132c74f7a893f6ef64b723d9600c40b7https://www.bilibili.com/video/BV1LGodYaE6r/?spm_id_from=333.337.search-card.all.click&vd_source=132c74f7a893f6ef64b723d9600c40b7

Ada Lovelace架构

RTX 4090是Ada Lovelace架构

这些GPU架构都是用人名来命名的

2025大模型产品经理黄金元年：7阶段学习路线+免费资源包助你高薪转型_零基础转行大模型产品经理

本文揭示了2025年大模型产品经理的黄金机遇，详细介绍了转型所需的5大核心能力模型和零基础逆袭的7阶段学习路线，并通过真实案例展示成功路径。文章还附赠技术文档、实战项目和求职资源包，助力程序员和职场人士快速掌握大模型产品技能&#xf…

李华

大模型应用开发必学：提示工程、RAG与微调全解析【建议收藏】

本文详细介绍大模型应用开发三种模式：提示工程(优化输入)、RAG(检索增强生成)和微调(参数调整)。重点解析RAG技术原理，通过外部知识库检索提高回答准确性和时效性，减少幻觉问题。提供DeepSeekFaiss搭建本地知识库的实战代码，以及查…

李华

为什么企业都在用TensorFlow镜像跑大模型Token任务？

为什么企业都在用TensorFlow镜像跑大模型Token任务？ 在大模型落地的战场上，一个看似不起眼的技术选择——使用 TensorFlow 官方镜像——正悄然成为工业界的标准动作。无论是金融领域的命名实体识别、医疗文本中的术语抽取，还是智能客服中的意…

李华

为什么你的Mac装不上Open-AutoGLM？深度剖析系统兼容性与依赖缺失问题

第一章：为什么你的Mac装不上Open-AutoGLM？如果你在尝试将 Open-AutoGLM 部署到本地 Mac 环境时失败，很可能并非操作失误，而是系统兼容性与依赖环境的深层问题。Open-AutoGLM 目前主要针对 Linux 环境优化，对 macOS 的支…

李华

TensorFlow镜像加速深度学习：企业级AI项目的首选解决方案

TensorFlow镜像加速深度学习：企业级AI项目的首选解决方案在金融风控模型训练中，一个常见的场景是：数据科学家刚提交完代码，CI/CD流水线却卡在了pip install tensorflow这一步——下载速度不到50KB/s，半小时后任务超时…

李华

错过再等一年！，Open-AutoGLM移动端部署技术门槛全面突破

第一章：Open-AutoGLM移动端部署的行业意义随着人工智能技术的持续演进，大语言模型在云端的部署已趋于成熟。然而，将高性能语言模型落地至移动终端设备，正成为推动AI普惠化的重要路径。Open-AutoGLM作为一款支持自动推理优化的开源…

李华