在 Yarn 上使用 FPGA

前提

YARN 目前只支持通过 IntelFpgaOpenclPlugin 发布的 FPGA 资源
YARN NodeManager 所在的机器上必须预先安装供应商的驱动程序并配置好必需的环境变量。
Docker 容器尚不支持。

配置

FPGA 调度

在 resource-types.xml，添加如下配置

<configuration>

  <property>

     <name>yarn.resource-types</name>

     <value>yarn.io/fpga</value>

  </property>

</configuration>

在 yarn-site.xml 中，DominantResourceCalculator 必须被配置以启用 FPGA 调度和隔离。在 capacity-scheduler.xml 中使用如下参数以配置 DominantResourceCalculator：

参数	默认值
yarn.scheduler.capacity.resource-calculator	org.apache.hadoop.yarn.util.resource.DominantResourceCalculator

FPGA 隔离

`yarn-site.xml`

<property>

  <name>yarn.nodemanager.resource-plugins</name>

  <value>yarn-io/fpga</value>

</property>

这将在 NodeManager 上启用 FPGA 隔离模块。

如果配置了上述参数，YARN 会自动检测和配置 FPGA。如果管理员由特殊的需求，以下参数需要在 yarn-site.xml 中配置。

1) 运行的 FPGA 设备

参数	默认值
yarn.nodemanager.resource-plugins.fpga.allowed-fpga-devices	auto

指明由 Yarn NodeManager 管理的 FPGA 设备，用逗号分隔。GPU 卡的数量将被汇报给 ResourceManager用于调度。默认值 auto 代表让 YARN 从系统中自动发现 GPU 卡。

如果管理员只希望一部分的 FPGA 设备被 Yarn 管理，请人为地指明可用的 FPGA 设备。因为当前只能配置为 c-e.cfg 中的一个主设备号，FPGA 设备由其次设备号标识。对于 Intel 设备，可以通过执行命令 aocl diagnose 并用解析设备名称对应的 uevent 来获取次设备号。

2) 发现 FPGA 设备的可执行程序

参数	默认值
yarn.nodemanager.resource-plugins.fpga.path-to-discovery-executables

当给定了 yarn.nodemanager.resource.fpga.allowed-fpga-devices=auto，YARN NodeManager 将执行 FPGA 发现的可执行程序（目前只支持 IntelFpgaOpenclPlugin）来收集 FPGA 信息。如果值为空（默认值），YARN NodeManager 将根据供应商的插件选项自行寻找。举例来说，IntelFpgaOpenclPlugin 会从环境 ALTERAOCLSDKROOT 的目录中查找 aocl 信息。

3) 使用的 FPGA 插件

参数	默认值
yarn.nodemanager.resource-plugins.fpga.vendor-plugin.class	org.apache.hadoop.yarn.server.nodemanager.containermanager.resourceplugin.fpga.IntelFpgaOpenclPlugin

当前，只支持 Intel OpenCL SDK for FPGA。FPGA 上运行的 IP 程序（.aocx 文件）必须基于 Intel 平台的 OpenCL 提供。

4) CGroups 挂载

FPGA 隔离使用 CGroup 设备控制器来实现 FPGA 设备之间的隔离。为了自动挂载次设备到 CGroups，以下配置要添加到 yarn-site.xml 文件中。否则，管理员必须人为地创建设备子目录以使用该功能。

参数	默认值
yarn.nodemanager.linux-container-executor.cgroups.mount	true

想知道 Yarn 使用 CGroup 的更多信息，请参阅使用 CGroups。

`container-executor.cfg`

通常需要添加如下配置到 container-executor.cfg 中。fpag.major-device-number 和 allowed-device-minor-numbers 是可选参数，指明允许的 FPGA 设备。

[fpga]

module.enabled=true

fpga.major-device-number=## FPGA 的主设备号，默认是 246。强烈建议设置该参数。

fpga.allowed-device-minor-numbers=## 逗号分隔的次设备号，空值代表由 Yarn 管理所有的 FPGA 设备。

如果用户要在非 Docker 环境下运行 FPGA 程序：

[cgroups]

# 系统 Cgroup 的根目录（不能为空或“/”）

root=/cgroup

# YARN CGroup 的父目录

yarn-hierarchy=yarn

使用

Distributed-shell + FPGA

分布式 Shell 程序在内存和虚拟核之外，还支持申请更多的资源类型。

不使用 Docker 运行分布式 Shell 程序（.bashrc 配置了 SDK 相关的环境变量）：

yarn jar <path/to/hadoop-yarn-applications-distributedshell.jar> \

  -jar <path/to/hadoop-yarn-applications-distributedshell.jar> \

  -shell_command "source /home/yarn/.bashrc && aocl diagnose" \

  -container_resources memory-mb=2048,vcores=2,yarn.io/fpga=1 \

  -num_containers 1

对于已经启动的任务，你将从日志中看到如下的输出：

aocl diagnose: Running diagnose from /home/fpga/intelFPGA_pro/17.0/hld/board/nalla_pcie/linux64/libexec

------------------------- acl0 -------------------------

Vendor: Nallatech ltd

Phys Dev Name  Status   Information

aclnalla_pcie0Passed   nalla_pcie (aclnalla_pcie0)

                       PCIe dev_id = 2494, bus:slot.func = 02:00.00, Gen3 x8

                       FPGA temperature = 54.4 degrees C.

                       Total Card Power Usage = 32.4 Watts.

                       Device Power Usage = 0.0 Watts.

DIAGNOSTIC_PASSED

---------------------------------------------------------

在启动容器前指定 Yarn 需要配置的 IP

对于 FPGA 资源，容器可以通过环境变量 REQUESTED_FPGA_IP_ID 来让 YARN 下载并分配一个 IP 给它。举例来说，REQUESTED_FPGA_IP_ID=“matrix_mul” 会触发在容器本地目录中查找名称包含 matirx_mul 字样的 IP 文件（.aocx 文件），程序必须首先将该文件分发到各个容器。当前只支持为所有设备分配一个 IP。如果用户不设置该环境变量，则表示用户程序将自行查找 IP 文件。需要注意的是，提前下载 IP 并重新编程在 Yarn 中并不是必需的，因为 OpenCL 程序可以在运行时查找 IP 文件并重新编程设备。但 Yarn 为容器完成这一步骤，以实现最快的重新编程。

Hadoop 3.1.1 - Yarn - 使用 FPGA的更多相关文章

Hadoop 新 MapReduce 框架 Yarn 详解
Hadoop 新 MapReduce 框架 Yarn 详解: http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/ Ap ...
Hadoop 新 MapReduce 框架 Yarn 详解【转】
[转自:http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/] 简介: 本文介绍了 Hadoop 自 0.23.0 版本 ...
更快、更强——解析Hadoop新一代MapReduce框架Yarn（CSDN）
摘要:本文介绍了Hadoop 自0.23.0版本后新的MapReduce框架(Yarn)原理.优势.运作机制和配置方法等:着重介绍新的Yarn框架相对于原框架的差异及改进. 编者按:对于业界的大数据存 ...
hadoop多机安装YARN
hadoop伪分布安装称为测试环境安装,多机分布称为生成环境安装.以下安装没有进行HA(热备)和Federation(联邦).除非是性能需要,否则没必要安装Federation,HA可以一试,涉及到Z ...
基于Hadoop分布式集群YARN模式下的TensorFlowOnSpark平台搭建
1. 介绍在过去几年中,神经网络已经有了很壮观的进展,现在他们几乎已经是图像识别和自动翻译领域中最强者[1].为了从海量数据中获得洞察力,需要部署分布式深度学习.现有的DL框架通常需要为深度学习设置 ...
【原创】大数据基础之Hadoop（3）yarn数据收集与监控
yarn常用rest api 1 metrics # curl http://localhost:8088/ws/v1/cluster/metrics The cluster metrics reso ...
Hadoop生态集群YARN详解
一,前言 Hadoop 2.0由三个子系统组成,分别是HDFS.YARN和MapReduce,其中,YARN是一个崭新的资源管理系统,而MapReduce则只是运行在YARN上的一个应用,如果把YAR ...
Hadoop记录-MRv2（Yarn）运行机制
1.MRv2结构—Yarn模式运行机制 Client---客户端提交任务 ResourceManager---资源管理 ---Scheduler调度器-资源分配Containers ----在Yarn ...
Hadoop（七）YARN的资源调度
一.YARN 概述 YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序 YARN ...

随机推荐

redhat6版本网卡绑定做bond
1.编写bond0配置文件 cd /etc/sysconfig/network-scripts(进入网卡配置文件路径) vi ifc-bond0(编辑bond0的配置文件,具体如下) DEVICE=b ...
在vue项目中使用echarts
1.安装echarts依赖npm install echarts --save 2.在要使用的页面引入import echarts from 'echarts'v5之后使用 import * echa ...
关于equals()和hashcode()的一些约定
本文章主要讨论和回答一下几个问题: equals()的四大特性 equals()和hashcode()之间的关系,为什么我们经常说这两个方法要么都重写,要么都不重写? HashMap.HashSet等 ...
Lc_704二分查找
package com.example.leetcode2; import java.util.*; /** * @description: 704. 二分查找 * 给定一个 n 个元素有序的(升序) ...
27、路由 route
优先于网卡中的配置,但是重启或重启网卡失效,最好加入到开机自启动服务中/etc/rc.local文件中: 27.1.添加网络路由: 目的网络.目的网络掩码,网关.网卡: 网络寻址以路由表中的路由优先: ...
35、cobbler自动化安装操作系统
35.1.cobbler介绍: Cobbler是独立的,不需要先安装Kickstart然后再安装Cobbler: Cobbler是一个Linux服务器安装的服务,可以通过网络启动(PXE)的方式来快速 ...
11、gitlab和Jenkins整合(2)
5.补充: (1)构建说明: 1)Jenkins会基于一些处理器任务后,构建发布一个稳健指数 (从0-100 ),这些任务一般以插件的方式实现. 2)它们可能包括单元测试(JUnit).覆盖率(Cob ...
NoSql非关系型数据库之MongoDB应用(三)：MongoDB在项目中的初步应用
业精于勤,荒于嬉:行成于思,毁于随. 我们可以结合相关的IDE做一个简单的增删改查了,实现MongoDB在项目中的初步应用. 前提是安装了MongoDB服务和MongoDB可视化工具,没有安装的可以点 ...
Linux导出未越狱Iphone10.3-QQ聊天记录
起因手机当中的聊天记录已经快两年没有备份了,生怕某天QQ版本升级中丢失掉这些聊天记录,所想将这两年的聊天记录保存下来查找了好多资料,结果10.3以后,IOS改变了策略,貌似不允许通过以前方法导出了 ...
18 shell 重定向以及文件描述符
1.对重定向的理解 2.硬件设备和文件描述符文件描述符到底是什么 3.Linux Shell 输出重定向 4.Linux Shell 输入重定向 5.结合Linux文件描述符谈重定向 6.Shell ...

Hadoop 3.1.1 - Yarn - 使用 FPGA