NCCL(Nvidia Collective multi-GPU Communication Library) Nvidia英伟达的Multi-GPU多卡通信框架NCCL 学习；PCIe 速率调研；

为了了解，上来先看几篇中文博客进行简单了解：

如何理解Nvidia英伟达的Multi-GPU多卡通信框架NCCL？(较为优秀的文章)
使用NCCL进行NVIDIA GPU卡之间的通信（GPU卡通信模式测试）
nvidia-nccl 学习笔记（主要是一些接口介绍）
https://developer.nvidia.com/nccl (官方网站)
https://github.com/NVIDIA/nccl （官方仓库）
https://www.cnblogs.com/xuyaowen/p/heterogeneous-system-architecture.html GPU 相关架构
https://www.nvidia.cn/data-center/nvlink/ (NVLink)
https://docs.nvidia.com/deeplearning/sdk/nccl-developer-guide/docs/overview.html （nccl doc）

内容摘录：

通信性能（应该主要侧重延迟）是pcie switch > 同 root complex （一个cpu接几个卡） > 不同root complex（跨cpu 走qpi）。ib的gpu direct rdma比跨cpu要快，所以甚至单机八卡要按cpu分成两组，每组一个switch，下面四个卡，一个ib，不通过cpu的qpi通信，而是通过ib通信。- 摘自评论
对于多个GPU卡之间相互通信，硬件层面上的实现有Nvlink、PCIe switch（不经过CPU）、Infiniband、以及PCIe Host Bridge（通常就是借助CPU进行交换）这4种方式。而NCCL是Nvidia在软件层面对这些通信方式的封装。

保持更新，更多内容，请参考cnblogs.com/xuyaowen;

PCIe 速率：

z390 芯片组资料：

https://ark.intel.com/content/www/cn/zh/ark/products/133293/intel-z390-chipset.html

P2P 显卡通信性能测试：

cuda/samples/1_Utilities/p2pBandwidthLatencyTest

nvidia 驱动安装：

https://www.cnblogs.com/xuyaowen/p/nvidia-driver-cuda-installation.html

nccl 编译安装过程：

git clone git@github.com:NVIDIA/nccl.git

cd nccl

make -j src.build （进行编译）

cd build

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/home/yourname/nccl/build/lib # 添加环境变量；也可以配置环境变量.bashrc;

export C_INCLUDE_PATH=/home/yourname/nccl/build/include (设置 C 头文件路径)

export CPLUS_INCLUDE_PATH=/home/yourname/nccl/build/include (设置C++头文件路径)

测试是否安装成功：

git clone https://github.com/NVIDIA/nccl-tests.git
cd nccl-tests
make CUDA_HOME=/path/to/cuda NCCL_HOME=/path/to/nccl （具体编译，可以参考官方文档）
./build/all_reduce_perf -b 8 -e 256M -f 2 -g <ngpus>

才是

NCCL(Nvidia Collective multi-GPU Communication Library) Nvidia英伟达的Multi-GPU多卡通信框架NCCL 学习；PCIe 速率调研；的更多相关文章

基于英伟达Jetson TX1的GPU处理平台
基于英伟达Jetson TX1 GPU的HDMI图像输入的深度学习套件 [309] 本平台基于英伟达的Jetson TX1视觉计算的全功能开发板,配合本公司研发的HDMI输入图像采集板:Jetson ...
英伟达GPU 嵌入式开发平台
英伟达GPU 嵌入式开发平台 1. JETSON TX1 开发者组件 JETSON TX1 开发者组件是视觉计算的全功能开发平台,旨在让您能够快速地安装和运行. 该组件带有 Lin ...
玩深度学习选哪块英伟达 GPU？有性价比排名还不够！
本文來源地址:https://www.leiphone.com/news/201705/uo3MgYrFxgdyTRGR.html 与“传统” AI 算法相比,深度学习(DL)的计算性能要求,可以说完 ...
英伟达GPU虚拟化---申请英伟达测试License
此文基于全新的License 2.0系统,针对vGPU License的试用申请以及软件下载和License管理进行了详细的说明,方便今后我们申请测试License,快速验证GPU的功能. 试用步骤: ...
Linux查看英伟达GPU信息
命令: nvidia-smi 结果:
学习笔记︱Nvidia DIGITS网页版深度学习框架——深度学习版SPSS
DIGITS: Deep Learning GPU Training System1,是由英伟达(NVIDIA)公司开发的第一个交互式深度学习GPU训练系统.目的在于整合现有的Deep Learnin ...
MLHPC 2018 | Aluminum: An Asynchronous, GPU-Aware Communication Library Optimized for Large-Scale Training of Deep Neural Networks on HPC Systems
这篇文章主要介绍了一个名为Aluminum通信库,在这个库中主要针对Allreduce做了一些关于计算通信重叠以及针对延迟的优化,以加速分布式深度学习训练过程. 分布式训练的通信需求通信何时发生一 ...
Aluminum: An Asynchronous, GPU-Aware Communication Library Optimized for Large-Scale Training of Deep Neural Networks on HPC Systems
本文发表在MLHPC 2018上,主要介绍了一个名为Aluminum通信库,这个库针对Allreduce做了一些关于计算通信重叠以及针对延迟的优化,以加速分布式深度学习训练过程. 分布式训练的通信需求 ...
GPU 编程入门到精通（五）之 GPU 程序优化进阶
博主因为工作其中的须要,開始学习 GPU 上面的编程,主要涉及到的是基于 GPU 的深度学习方面的知识.鉴于之前没有接触过 GPU 编程.因此在这里特地学习一下 GPU 上面的编程. 有志同道合的小伙 ...

随机推荐

React: 高阶组件(HOC)
一.简介如我们所知,JavaScript有高阶函数这么一个概念,高阶函数本身是一个函数,它会接收或者返回一个函数,进而对该函数进行操作.其实,在React中同样地有高阶组件这么一个东西,称为HOC, ...
Leetcode题解 - DFS部分简单题目代码+思路（113、114、116、117、1020、494、576、688）
这次接触到记忆化DFS,不过还需要多加练习 113. 路径总和 II - (根到叶子结点相关信息记录) """ 思路: 本题 = 根到叶子结点的路径记录 + 根到叶子结点 ...
CAS与ABA问题产生和优雅解决
本人免费整理了Java高级资料,涵盖了Java.Redis.MongoDB.MySQL.Zookeeper.Spring Cloud.Dubbo高并发分布式等教程,一共30G,需要自己领取.传送门:h ...
springboot使用hibernate validator
前言在开发中经常需要写一些字段校验的代码,比如字段非空,字段长度限制,邮箱格式验证等等,写这些与业务逻辑关系不大的代码个人感觉有两个麻烦: 验证代码繁琐,重复劳动方法内代码显得冗长每次要看哪些参 ...
由“RangeError: Invalid status code: 0”错误所引发的思考
最近发现一个基于Node.js平台上的Express框架运行的Web网站经常报这样一个错误: RangeError: Invalid status code: 网站的源码中有专门针对错误处理的中间件, ...
iOS开发WKWebView 返回H5上级页面
#pragma mark ---- 点击事件 -(void)leftTapClick:(UITapGestureRecognizer *)sender{ //判断是否能返回到H5上级页面 if (se ...
知识图谱基础之RDF，RDFS与OWL 2
https://zhuanlan.zhihu.com/p/32122644 看过之前两篇文章([1](为什么需要知识图谱?什么是知识图谱?——KG的前世今生), [2](语义网络,语义网,链接数据和知 ...
1.2 菜单权限 ——MyRapid WinForm快速开发框架-功能介绍
添加菜单后用户并不会看到菜单需要经过授权后才能看到授权界面如图授权的数据逻辑可以理解为一个键值对角色>>菜单但是为了方便集中数据管理我设计成了角色>>资源其中的 ...
推荐一个好用的行内可编辑的table组件 vxe-table
项目中有一个需要用户点击table单元格可编辑的需求,由于博主用的是elementUI,element组件内实现可编辑,用过的小伙伴都知道,非常麻烦,后来博主在浏览组件的时候发现了一款非常好用的ta ...
使用vsphere client 克隆虚拟机的具体操作步骤
采用 VMWare ESXi6.0,使用ESXi经常会遇到这样的问题,需要建立多个虚拟机,都是一样的操作系统,但是如果一台台装效率太低. VMware ESXi.VMware vCenter Serv ...

NCCL(Nvidia Collective multi-GPU Communication Library) Nvidia英伟达的Multi-GPU多卡通信框架NCCL 学习；PCIe 速率调研；

NCCL(Nvidia Collective multi-GPU Communication Library) Nvidia英伟达的Multi-GPU多卡通信框架NCCL 学习；PCIe 速率调研；的更多相关文章

随机推荐

热门专题