原文链接

深度神经网络 (DNN) 培训属于计算密集型项目,需要在现代计算平台上花费数日或数周的时间方可完成。 在最近的一篇文章《基于英特尔® 至强™ E5 产品家族的单节点 Caffe 评分和培训》中,我们展示了基于 AlexNet 拓扑的 Caffe* 框架的性能提升 10 倍,单节点培训时间减少到 5 天。 英特尔继续履行 Pradeep Dubey 的博客中列出的机器学习愿景,在本篇技术预览中,我们将展示如何在多节点、分布式内存环境中将 Caffe 的培训时间从数日减少为数个小时。

    本文介绍了功能有限且并不用于生产的预览包。 讨论的特性现已配备在英特尔 MKL 2017英特尔 Caffe 分支 (fork) 中。

Caffe 是伯克利愿景和学习中心 (Berkeley Vision and Learning Center, BVLC) 开发的深度学习框架,是最常见的图像识别社区框架之一。 Caffe 经常作为基准测试与 AlexNet* (一种图像识别神经网络拓扑) 和 ImageNet*(一种标签图像数据库)一起使用。

Caffe 框架在默认情况下并不支持多节点、分布式内存系统,需要做出大范围的调整方可在分布式内存系统上运行。 我们借助英特尔® MPI 库对同步 minibatch 随机梯度下降 (SGD) 算法执行强扩展。 针对一次迭代的计算能够扩展到多个节点,这样,多线程多阶段并行实施便相当于单节点、单线程序列实施。

我们使用三种方法扩展计算:数据并行、模型并行和混合并行。 模型并行是指将模型或重量划分为节点,这样,每个部分的重量便由指定节点所有,每个节点在一个 minibatch 中处理所有数据点。 与重量和重量梯度的通信不同,这需要激活和激活梯度通信,数据并行通常就是这样。

借助这一更高级的分布式并行,我们对所有 2012 年 ImageNet 大规模视觉识别挑战赛 (ILSVRC-2012) 数据集上的 AlexNet 进行了培训,仅用了 5 个多小时的时间便在基于英特尔® 至强™ 处理器 E5 产品家族的 64 节点系统集群上达到 80% 的数据集准确度(位列前五名)。

入门

虽然我们正在努力将本文中列出的新功能整合至以后的英特尔® 数学核心函数库(英特尔® MKL)英特尔®数学分析加速库(英特尔® DAAL) 版本中,您可以使用本文所附的技术预览包再次生成所演示的性能结果,甚至在您自己的数据集上培训 AlexNet。 预览包括单节点和多节点实施。 请注意,目前的实施仅限于 AlexNet 拓扑,可能无法与其他常见 DNN 拓扑配合使用。

该软件包支持 AlexNet 拓扑,并添加了 ‘intel_alexnet’ 和 ‘mpi_intel_alexnet’ 模型,这与在 ‘bvlc_alexnet’ 中添加两个新的 ‘IntelPack’ 和 ‘IntelUnpack’ 层,以及针对所有层优化卷积、池化、标准化层和基于 MPI 的实施一样。 我们还更改了验证参数以提高矢量化性能,即将验证 minibatch 尺寸从 50 提高到 256,将测试迭代次数从 1,000 减少到 200,从而使验证运行中使用的映像数量保持不变。 数据包在以下文件夹中包含 ‘intel_alexnet’ 模型:

  • models/intel_alexnet/deploy.prototxt
  • models/intel_alexnet/solver.prototxt
  • models/intel_alexnet/train_val.prototxt.
  • models/mpi_intel_alexnet/deploy.prototxt
  • models/mpi_intel_alexnet/solver.prototxt
  • models/mpi_intel_alexnet/train_val.prototxt.
  • models/mpi_intel_alexnet/train_val_shared_db.prototxt
  • models/mpi_intel_alexnet/train_val_split_db.prototxt

’intel_alexnet’ 和 ’mpi_intel_alexnet’ 模型都支持您培训和测试 ILSVRC-2012 培训集。

如要启动软件包,请确保您的系统中已安装了系统要求和限制部分列出的所有常规 Caffe 依赖性和英特尔软件工具。

在单节点上运行

  1. 解包软件包。
  2. 为以下 ‘intel_alexnet’ 模型文件中的数据库、快照位置和图像均值文件指定路径。
    • models/intel_alexnet/deploy.prototxt
    • models/intel_alexnet/solver.prototxt
    • models/intel_alexnet/train_val.prototxt
  3. 系统要求和限制部分列出的软件工具设置运行时环境。
  4. 在 LD_LIBRARY_PATH 环境变量中添加连接至 ./build/lib/libcaffe.so 的路径。
  5. 按照以下方式设置线程环境:
    $> export OMP_NUM_THREADS=<N_processors * N_cores>
    $> export KMP_AFFINITY=compact,granularity=fine

注: OMP_NUM_THREADS 必须为大于等于 2 的偶数。

  1. 使用该命令在单节点上执行计时:
    $> ./build/tools/caffe time \
           -iterations <number of iterations> \
           --model=models/intel_alexnet/train_val.prototxt
  2. 使用该命令在单节点上运行培训:
    $> ./build/tools/caffe train \
           --solver=models/intel_alexnet/solver.prototxt

在集群上运行

  1. 解包软件包。
  2. 系统要求和限制部分列出的软件工具设置运行时环境。
  3. 在 LD_LIBRARY_PATH 环境变量中添加连接至 ./build-mpi/lib/libcaffe.so 的路径。
  4. 按照如下方式,针对要使用的节点数量设置 NP 环境变量:

$> export NP=<number-of-mpi-ranks>

注:通过在每个节点添加一个 MPI 队列可以实现最佳性能。

  1. 以 x${NP}.hosts 为名,在应用的根目录中创建一个节点文件。 比如,对于 IBM* 平台 LSF*,可以运行以下命令:

$> cat $PBS_NODEFILE > x${NP}.hosts

  1. 为以下 ‘mpi_intel_alexnet’ 模型文件中的数据库、快照位置和图像均值文件指定路径:

    • models/mpi_intel_alexnet/deploy.prototxt,
    • models/mpi_intel_alexnet/solver.prototxt,
    • models/mpi_intel_alexnet/train_val_shared_db.prototxt

注:在某些系统配置上,共享磁盘系统的性能可能会成为瓶颈。 在这种情况下,建议将映像数据库预先分配到计算节点以实现最佳性能结果。 参阅数据包中的自述文件,了解相关说明。

  1. 按照以下方式设置线程环境:

$> export OMP_NUM_THREADS=<N_processors * N_cores>
$> export KMP_AFFINITY=compact,granularity=fine

注: OMP_NUM_THREADS 必须为大于等于 2 的偶数。

  1. 使用该命令执行计时:
    $> mpirun -nodefile x${NP}.hosts -n $NP -ppn 1 -prepend-rank \

./build/tools/caffe time \

-iterations <number of iterations> \

--model=models/mpi_intel_alexnet/train_val.prototxt

  1. 使用该命令运行培训:
    $> mpirun -nodefile x${NP}.hosts -n $NP -ppn 1 -prepend-rank \

./build-mpi/tools/caffe train \

--solver=models/mpi_intel_alexnet/solver.prototxt

系统要求和限制

该预览包与未优化的 Caffe 拥有相同的软件关联组件:

英特尔软件工具:

硬件兼容性:

此软件仅使用 AlexNet 拓扑进行验证,可能不适用于其他配置。

支持

如有关于该预览包的问题和建议,请联系:mailto:intel.mkl@intel.com

基于英特尔® 至强™ 处理器 E5 产品家族的多节点分布式内存系统上的 Caffe* 培训的更多相关文章

  1. 基于英特尔® 至强 E5 系列处理器的单节点 Caffe 评分和训练

    原文链接 在互联网搜索引擎和医疗成像等诸多领域,深度神经网络 (DNN) 应用的重要性正在不断提升. Pradeep Dubey 在其博文中概述了英特尔® 架构机器学习愿景. 英特尔正在实现 Prad ...

  2. 英特尔® 至强® 平台集成 AI 加速构建数据中心智慧网络

    英特尔 至强 平台集成 AI 加速构建数据中心智慧网络 SNA 通过 AI 方法来实时感知网络状态,基于网络数据分析来实现自动化部署和风险预测,从而让企业网络能更智能.更高效地为最终用户业务提供支撑. ...

  3. [转帖]迎战AMD 7nm 64核EPYC 英特尔至强也玩起了胶水以及性价比

    迎战AMD 7nm 64核EPYC 英特尔至强也玩起了胶水以及性价比 Intel 最强CPU 从最开始的双核 到现在的 28核 发展迅猛. https://www.cnbeta.com/article ...

  4. 英特尔与 Facebook 合作采用第三代英特尔® 至强® 可扩展处理器和支持 BFloat16 加速的英特尔® 深度学习加速技术,提高 PyTorch 性能

    英特尔与 Facebook 曾联手合作,在多卡训练工作负载中验证了 BFloat16 (BF16) 的优势:在不修改训练超参数的情况下,BFloat16 与单精度 32 位浮点数 (FP32) 得到了 ...

  5. [转帖]抢先AMD一步,英特尔推出新处理器,支持LPDDR5!

    抢先AMD一步,英特尔推出新处理器,支持LPDDR5! http://www.eetop.cn/cpu_soc/6946240.html 2019.10 intel的最新技术发展. 近日,知名硬件爆料 ...

  6. 面向基于英特尔&#174; 架构的 Android* 的 CoCos2D

    Cocos2D 是一款游戏引擎,可与从电脑到手机等多种设备配合使用. 该引擎支持丰富的特性,可帮助创建出色的 2D 游戏.它甚至包含具备全面功能的物理引擎. CoCos2D 的核心元素是基本动画元素( ...

  7. 借助第八代智能英特尔® 酷睿™ i7 处理器和 Unreal Swarm* 的强大性能快速构建光照

    <虚幻竞技场>.<Robo Recall>等游戏的成功与 Unreal Engine 如何处理照明密切相关.原因之一就是静态光映射,但是这需要付出一定的代价:构建照明需要时间, ...

  8. 【硬件】- 英特尔CPU命名中的产品线后缀

    产品线后缀是CPU命名体系里最复杂最难懂的,在英特尔冗长的产品线中,CPU的后缀也是千变万化.不带后缀的CPU一般就是最普通的桌面级处理器,不管是性能还是价格都比较中庸,比如当前性价比较高的Core  ...

  9. 现代英特尔® 架构上的 TensorFlow* 优化——正如去年参加Intel AI会议一样,Intel自己提供了对接自己AI CPU优化版本的Tensorflow,下载链接见后,同时可以基于谷歌官方的tf版本直接编译生成安装包

    现代英特尔® 架构上的 TensorFlow* 优化 转自:https://software.intel.com/zh-cn/articles/tensorflow-optimizations-on- ...

随机推荐

  1. 简单编写Makefile

    相信很多朋友都有过这样的经历,看着开源项目中好几页的makefile文件,不知所云.在日常学习和工作中,也有意无意的去回避makefile,能改就不写,能用ide就用ide.其实makefile并没有 ...

  2. 4. SVM分类器求解(2)

    最优间隔分类器(optimal margin classifier) 重新回到SVM的优化问题: 我们将约束条件改写为: 从KKT条件得知只有函数间隔是1(离超平面最近的点)的线性约束式前面的系数,也 ...

  3. ASP.NET MVC5+EF6+EasyUI 后台管理系统(48)-工作流设计-起草新申请

    系列目录 创建新表单之后,我们就可以起草申请了,申请按照严格的表单步骤和分支执行. 起草的同时,我们分解流转的规则中的审批人并保存,具体流程如下 接下来创建DrafContoller控制器,此控制器只 ...

  4. C# 给PDF添加图片背景

    C# 给PDF添加图片背景 今天要实现的是给PDF文件添加图片背景这个功能.PDF是近年来最流行的文件之一,无论是办公还是日常生活中都经常会用到,很多时候,PDF文件的背景色都是白色,看多了难免觉得累 ...

  5. 【分布式】Zookeeper请求处理

    一.前言 在前面学习了Zookeeper中服务器的三种角色及其之间的通信,接着学习对于客户端的一次请求,Zookeeper是如何进行处理的. 二.请求处理 2.1 会话创建请求 Zookeeper服务 ...

  6. 用CIL写程序:从“call vs callvirt”看方法调用

    前文回顾:<用CIL写程序系列> 前言: 最近的时间都奉献给了加班,距离上一篇文章也有半个多月了.不过在上一篇文章<用CIL写程序:定义一个叫“慕容小匹夫”的类>中,匹夫和各位 ...

  7. ASP.NET Core 中文文档 第二章 指南(3)用 Visual Studio 发布一个 Azure 云 Web 应用程序

    原文:Getting Started 作者:Rick Anderson 翻译:谢炀(Kiler) 校对:孟帅洋(书缘).刘怡(AlexLEWIS).何镇汐 设置开发环境 安装最新版本的 Azure S ...

  8. VS2010 VS2012 VS2013 VS2015启动调试时老是提示正在下载公共符号

    VS2010 VS2012 VS2013 VS2015启动调试时老是提示正在下载公共符号,下载一些.dll文件,点取消后也能继续调试,但特别慢.解决方法:工具-选项,或者调试-选项和设置,将调试下的& ...

  9. ICSharpCode.SharpZipLib 压缩、解压文件 附源码

    http://www.icsharpcode.net/opensource/sharpziplib/ 有SharpZiplib的最新版本,本文使用的版本为0.86.0.518,支持Zip, GZip, ...

  10. JSP简单记录

    JSP,全称是Java Server Page,是运行在服务器端的页面,是建立在Servlet规范的动态网页技术,JSP文件在第一次请求时,会被编译成Servlet,所以JSP也可以看成是运行中的Se ...