mesos支持gpu代码分析以及capos支持gpu实现
这篇文章涉及mesos如何在原生的mesoscontainerizer和docker containerizer上支持gpu的,以及如果自己实现一个mesos之上的framework capos支持gpu调度的实现原理,(capos是hulu内部的资源调度平台 refer to https://www.cnblogs.com/yanghuahui/p/9304302.html)。
mesos slave在启动的时候需要初始化containerizer的resource,包含cpu/mem/gpu等,这对于mesos containerizer和docker containerizer都是通用的
void Slave::initialize() {
...
Try<Resources> resources = Containerizer::resources(flags);
...
}
然后到了src/slave/containerizer/containerizer.cpp 代码块中, 根据mesos-slave/agent的启动参数flags,调用allocator逻辑
Try<Resources> Containerizer::resources(const Flags& flags)
{
...
// GPU resource.
Try<Resources> gpus = NvidiaGpuAllocator::resources(flags);
if (gpus.isError()) {
return Error("Failed to obtain GPU resources: " + gpus.error());
} // When adding in the GPU resources, make sure that we filter out
// the existing GPU resources (if any) so that we do not double
// allocate GPUs.
resources = gpus.get() + resources.filter(
[](const Resource& resource) {
return resource.name() != "gpus";
});
...
}
src/slave/containerizer/mesos/isolators/gpu/allocator.cpp 会用nvidia的管理gpu的命令nvml以及根据启动参数,返回这台机器上gpu的资源,供之后的调度使用。
// To determine the proper number of GPU resources to return, we
// need to check both --resources and --nvidia_gpu_devices.
// There are two cases to consider:
//
// (1) --resources includes "gpus" and --nvidia_gpu_devices is set.
// The number of GPUs in --resources must equal the number of
// GPUs within --nvidia_gpu_resources.
//
// (2) --resources does not include "gpus" and --nvidia_gpu_devices
// is not specified. Here we auto-discover GPUs using the
// NVIDIA management Library (NVML). We special case specifying
// `gpus:0` explicitly to not perform auto-discovery.
//
static Try<Resources> enumerateGpuResources(const Flags& flags)
{
...
}
因为gpu资源是需要绑定gpu卡number的,gpu资源在调度的数据结构中,是一个set<Gpu>, allocator.go提供allocate和deallocate接口的实现
Future<Nothing> allocate(const set<Gpu>& gpus)
{
set<Gpu> allocation = available & gpus; if (allocation.size() < gpus.size()) {
return Failure(stringify(gpus - allocation) + " are not available");
} available = available - allocation;
allocated = allocated | allocation; return Nothing();
} Future<Nothing> deallocate(const set<Gpu>& gpus)
{
set<Gpu> deallocation = allocated & gpus; if (deallocation.size() < gpus.size()) {
return Failure(stringify(gpus - deallocation) + " are not allocated");
} allocated = allocated - deallocation;
available = available | deallocation; return Nothing();
}
但是封装到上层,供containerizer调用的时候,指定需要allocate的gpu number就可以
Future<set<Gpu>> NvidiaGpuAllocator::allocate(size_t count)
{
// Need to disambiguate for the compiler.
Future<set<Gpu>> (NvidiaGpuAllocatorProcess::*allocate)(size_t) =
&NvidiaGpuAllocatorProcess::allocate; return process::dispatch(data->process, allocate, count);
}
但是deallocate仍然需要显示指定需要释放哪些gpu
Future<Nothing> NvidiaGpuAllocator::deallocate(const set<Gpu>& gpus)
{
return process::dispatch(
data->process,
&NvidiaGpuAllocatorProcess::deallocate,
gpus);
}
然后如果作业是用docker containerizer,可以看到src/slave/containerizer/docker.cpp中调用gpu的逻辑
Future<Nothing> DockerContainerizerProcess::allocateNvidiaGpus(
const ContainerID& containerId,
const size_t count)
{
if (!nvidia.isSome()) {
return Failure("Attempted to allocate GPUs"
" without Nvidia libraries available");
} if (!containers_.contains(containerId)) {
return Failure("Container is already destroyed");
} return nvidia->allocator.allocate(count)
.then(defer(
self(),
&Self::_allocateNvidiaGpus,
containerId,
lambda::_1));
}
所以之上,就是在slave中启动的时候加载确认gpu资源,然后在启动containerizer的时候,可以利用slave中维护的gpu set资源池,去拿到资源,之后启动作业。
那capos是如何实现的呢,capos是hulu内部的资源调度平台(refer to https://www.cnblogs.com/yanghuahui/p/9304302.html),因为自己实现了mesos的capos containerizer,我们的做法是,在mesos slave注册的时候显示的通过参数或者自动探测的机制,发现gpu资源,然后用--resources=gpu range的形式启动mesos agent,这样offer资源的gpu在capos看来就是一个range,可以类似使用port资源的方式,来调度gpu,在capos containerizer中,根据调度器指定的gpu range,去绑定一个或者多个gpu资源到docker nvidia runtime中。完成gpu调度功能。
mesos支持gpu代码分析以及capos支持gpu实现的更多相关文章
- JQuery html API支持解析执行Javascript脚本功能实现-代码分析
JQuery html用法(功能类似innerHTML) 开发中需要使用Ajax技术来更新页面局部区域, 使用的方法是ajax获取html代码段(字符串),然后将这个html代码段作为参数,传入目标D ...
- 转 Unity企业级支持案例与分析
Unity大中华区技术支持总监张黎明以“Unity企业级支持案例与分析”为主题进行了分享. 以下为演讲实录: 张黎明:非常感谢大家来参加今年的Unite,其实我现在看到有的朋友已经不是第一次来参加Un ...
- unite2017《Unity企业级支持案例与分析》
在今天举办的Unite2017开发者大会上,Unity大中华区技术支持总监张黎明以"Unity企业级支持案例与分析"为主题进行了分享. 以下为演讲实录: 张黎明:非常感谢大家来参加 ...
- phpStorm支持CodeIgniter代码提示/自动完成
下载这个文件phpstorm-ci-ac 或者去github下载解压里面的三个文件到ci根目录下然后找到这三个文件 system\core\Controller.phpsystem\core\Mode ...
- Eclipse支持Jquery代码提示(JqeuryWTP)
问题描述: Eclipse支持Jquery代码提示 问题解决: 下载 JqueryWTP.jar文件 文件替换 在Eclipse/plugin 路径下, ...
- 让wordpress分类和标签的描述支持HTML代码
默认 WordPress 后台分类和标签的编辑页面,分类和标签的描述是不支持 HTML 代码的,我们可以通过在当前主题的 functions.php 文件添加如下代码让分类和标签的描述支持 HTML ...
- LiveBlox无需代码的开发工具--支持win macos ubuntu等开发环境--
LiveBlox无需代码的开发工具-支持windows macos ubuntu. 强大 灵活 易于使用 视频简介:LiveBlox Develop Technology Without Coding ...
- Typecho-Material主题不支持Kotlin代码高亮的解决方案
Typecho-Material主题不支持Kotlin代码高亮的解决方案 Overview 最近通过Typecho搭建了一个Blog,采用了 Material主题,其他的都挺好,也挺喜欢这个主题,但是 ...
- Sublime text代码补全插件(支持Javascript、JQuery、Bootstrap框架)
Sublime text代码补全插件(支持Javascript.JQuery.Bootstrap框架) 插件名称:javascript-API-Completions 支持Javascript.J ...
随机推荐
- 2019.03.28 bzoj3326: [Scoi2013]数数(数位dp)
传送门 题意: 一个人数数,规则如下: 确定数数的进制B 确定一个数数的区间[L, R] 对于[L, R] 间的每一个数,把该数视为一个字符串,列出该字符串的所有连续子串对应的B进制数的值. 对所有列 ...
- 中标麒麟(linux)下Qt调用python数据转换
转自:https://blog.csdn.net/itas109/article/details/78733478 mytest.py文件 # -*- coding: utf-8 -*- def he ...
- ECharts使用—折线图动态加载
最近需求中用到折线图,单线条,多线交错,之前是散点图,用的是另一个 amcharts.js,这个文档也能找的到,回归早本次重点:ECharts 一.首先引入echarts.common.min.js文 ...
- centos 下Python独立虚拟环境创建
virtualenv Python有着庞大的开源社区的支持,很自然就产生这么一个问题:第三方包参差不齐,如果我们想在服务器测试,或者升级某个包,就会导致生产环境产生杂乱,多余的第三方依赖包. virt ...
- redis_字符串对象
Redis总共支持五种数据类型:string,hash,list,set及zset.这里介绍字符串类型的实现 首先了解字符串对象的结构 // redis对象内存分配,列出主要相关的属性 redisOb ...
- Adnroid开发环境搭建(四步搞定)
新手博友,多多关照 下面给大家介绍JDK Eclipse AndroidSDK ADT环境搭建,安装教程 第一步.安装JDK: 第二步.安装Eclipse: 第三步.下载并安装AndroidSDK: ...
- js基础知识:字面量 关键字和保留字
js中的字面量概念我的理解就是:字体表面的常量 如:数字 100, 字符串 "ssss"或'ssss' 布尔值:false ,正则 以及null对象. 这些都是常量. 关键字: ...
- js中树结构根据条件查找节点返回节点路径的一些思路
今天在项目中遇到一个问题,需要根据数据库中记录的树结构节点id获取该记录所在目录节点的路径. 大致想法,首先定义变量保存当前路径,然后递归遍历该树节点,在遍历的过程中将遍历到的节点加入到当前路径中,找 ...
- struts2 升级至2.3.32时访问页面报错 File "/struts-tags" not found
Apache struts是美国阿帕奇(Apache)软件基金会负责维护的一个开源项目,是一套用于创建企业级Java Web 应用的开源MVC框架,主要提供两个版本框架产品: struts 1和str ...
- 阿里云,未找到或无法访问服务器.请验证实例名称是否正确并且 SQL Server 已配置为允许远程连接.
阿里云主机使用SQL Server作为数据库服务器,连接数据库时候出现错误. 按照网上经验,检查SQL服务是否开启,sa用户权限,数据库安全性和连接权限: 关闭服务器防火墙,修改入站规则: 检查阿里云 ...