《Bandwidth-Aware Scheduling With SDN in Hadoop:A New Trend for Big Data》--2017
Hadoop中使用SDN的带宽感知调度:大数据的一种新趋势
Abstract:
为了处理大规模的数据,提出了基于Hadoop框架的MapReduce,在Hadoop系统中,有一种叫做NP完全最小(NP-complete minimum)制造跨度问题(make span prlblem)。一种解决办法是在数据本地节点上分配任务来避免链路占用;很多用于data locality 的方法被提出,例如HDS和BAR。可是它们都有其缺点:要么忽略全局视图中的任务分配,要么忽略可用带宽作为调度的基础。
于是作者就提出了一种基于SDN的启发式带宽感知任务调度算法(简称BASS),将Hadoop和SDN相结合。
根据作者所说,BASS是第一个探索出SDN在大数据处理的作业调度的优势,并指出其是大规模数据处理的新趋势。
索引: Bandwidth-aware,big data, Hadoop, cheduling, software-defined networking(SDN).
【
concurrently 同时地
implementation 成就,贯彻
assign 分派,选派
scarce 缺乏的、罕见的
methodology 原则、方法
disregard 漠视、忽视
heuristic 启发式的、探索的
optimized 最佳化的
exploit 开采、开拓
】
Content
I. I NTRODUCTION
开头便介绍了SDN和big data的好处,逐渐成了现今发展的趋势。
随着大数据处理和SDN的发展,那问题就来了:是否可以用于处理最小制造跨度问题(thr minimum make span issue)呢?是否可以将SDN的带宽控制能力和Hadoop系统相结合来探索一种优化的任务调度方案?如图1所示的问号上:

【
the NP-complete minimum makespan problem:NP完全最小完工时间问题
deploy 部署
automation 自动化
multicast 多播、多点传送
deterministic 确定性的
innovative 革新的,创新的
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。
P类问题:可以在多项式时间内求解出来结果的。
NP类问题:无法直接计算得到的,例如只能靠猜算得知质数。
生成问题的一个解通常比验证一个给定的解时间花费要多得多。
NP-完全问题(NPC问题):既然给定一个结果我们可以快速利用内部只是进行验证是否正确,那么反过来想,是否存在一个确定性的算法,可以在多项式的时间内, 直接算出或搜寻出正确的答案呢?
optimized 最佳化的
agility 敏捷,活泼
utilize 使用,利用
scarce 缺乏的,罕见的
parameter 参数
outperform 胜过,做得更好
】
文章的主要贡献如下:
1. 将the make span 形式化,并提出了一种带宽分配的TS方案;
2. 提出了一种带宽感知的任务调度器BASS,其性能优于以往所有相关算法;
3. 用了几个例子和实验来证明BASS的有效性。
文章的组织如下: Section II 回顾一些相关工作,Section III 对Hadoop集群中的调度问题进行了形式化的描述, Section IV 提出了基于SDN的带宽感知调度器BASS并给出了详细的示例说明, Section V 说了实验的细节,Section VI 总结全文并展望未来。
【
formalize 使形式化
exploit 开采、开拓
extensive 广阔的、广大的
】
II. RELATED WORK
Hadoop默认调度程序会搜索data local tasks并将它们分配给空闲节点,但这会增加作业完成时间。Matei建议延迟调度,已解决数据局部性和公平性的冲突,但是这会带来利用不足和不稳定的情况。Tan等人发现map tasks 和reduce tasks 并没很好地共同优化,这就会造成任务调度饥饿以及不利的数据局部性。于是就提出说能不能将两者很好地结合一下,但优于Hadoop中是假定所有节点都是专用于单个用户的,因此也无法保证高性能…作者罗列了很多文章提出的一些方法, 并说明了它们的局限性。
III. PROBLEM FORMALIZATION
定义了一些符号,如表1所示:
然后是一堆公式的集合。
IV. SDN-BASED BANDWIDTH-AWARE SCHEDULING IN HADOOP FOR BIG DATA PROCESSING
A. TS Bandwidth Allocation
B. BASS: Bandwidth-Aware Scheduling With SDN in Hadoop
V. EXPERIMENTS FOR PERFORMANCE EVALUATION
A. Experimental Setup
B. Experimental Results
VI.CONCLUSION AND EXPECTATIONS
本文利用SDN并充分考虑链路带宽,以提高大数据处理的性能。本文首先对Hadoop中的makespan问题进行了形式化描述,并提出了一种带宽分配的TS方案,可以以灵活的方式分配任务。最后,作者给出了实例,并实现了扩展的实际实验,证明了BASS的有效性。
【
utilize 利用,使用
exploit 开采,开拓
formalize 使正式
allocation 分配
extensive 广阔的
cluster 丛、群
evolvement 发展,进化
scalability 可测量性
】
PS:中间的一些具体实现以及一些公式没有看懂.
《Bandwidth-Aware Scheduling With SDN in Hadoop:A New Trend for Big Data》--2017的更多相关文章
- 《IM开发新手入门一篇就够:从零开发移动端IM》
登录 立即注册 TCP/IP详解 资讯 动态 社区 技术精选 首页 即时通讯网›专项技术区›IM开发新手入门一篇就够:从零开发移动端IM 帖子 打赏 分享 发表评论162 想开 ...
- [Spark] Spark 3.0 Accelerator Aware Scheduling - GPU
Ref: Spark3.0 preview预览版尝试GPU调用(本地模式不支持GPU) 预览版本:https://archive.apache.org/dist/spark/spark-3.0.0-p ...
- 《深入理解Spark:核心思想与源码分析》(前言及第1章)
自己牺牲了7个月的周末和下班空闲时间,通过研究Spark源码和原理,总结整理的<深入理解Spark:核心思想与源码分析>一书现在已经正式出版上市,目前亚马逊.京东.当当.天猫等网站均有销售 ...
- 《深入理解Spark:核心思想与源码分析》(第2章)
<深入理解Spark:核心思想与源码分析>一书前言的内容请看链接<深入理解SPARK:核心思想与源码分析>一书正式出版上市 <深入理解Spark:核心思想与源码分析> ...
- 《深入理解Spark:核心思想与源码分析》一书正式出版上市
自己牺牲了7个月的周末和下班空闲时间,通过研究Spark源码和原理,总结整理的<深入理解Spark:核心思想与源码分析>一书现在已经正式出版上市,目前亚马逊.京东.当当.天猫等网站均有销售 ...
- 《深入理解Spark:核心思想与源码分析》正式出版上市
自己牺牲了7个月的周末和下班空闲时间,通过研究Spark源码和原理,总结整理的<深入理解Spark:核心思想与源码分析>一书现在已经正式出版上市,目前亚马逊.京东.当当.天猫等网站均有销售 ...
- 《Spark大数据处理:技术、应用与性能优化 》
基本信息 作者: 高彦杰 丛书名:大数据技术丛书 出版社:机械工业出版社 ISBN:9787111483861 上架时间:2014-11-5 出版日期:2014 年11月 开本:16开 页码:255 ...
- 《Spark大数据处理:技术、应用与性能优化》【PDF】 下载
内容简介 <Spark大数据处理:技术.应用与性能优化>根据最新技术版本,系统.全面.详细讲解Spark的各项功能使用.原理机制.技术细节.应用方法.性能优化,以及BDAS生态系统的相关技 ...
- 《Spark大数据处理:技术、应用与性能优化》【PDF】
内容简介 <Spark大数据处理:技术.应用与性能优化>根据最新技术版本,系统.全面.详细讲解Spark的各项功能使用.原理机制.技术细节.应用方法.性能优化,以及BDAS生态系统的相关技 ...
随机推荐
- [POI2011]Meteors
嘟嘟嘟 做了几道题之后,对整体二分有点感觉了. 整体二分的本质就是二分答案.所以这道题二分的就是次数. 然后就是套路了,把小于\(mid\)的操作都添加减去,然后查询,如果查询的值\(x\)比给定值大 ...
- luogu P2365 任务安排
嘟嘟嘟 如果常规dp,\(dp[i][j]\)表示前\(i\)个任务分\(j\)组,得到 \[dp[i][j] = min _ {k = 0} ^ {i - 1} (dp[k][j - 1] + (s ...
- 【转】Android中通知的提示音、震动和LED灯效果小例子
通知(Notification)是 Android 系统中比较有特色的一个功能,当某个应用程序希望向用户发出一些提示信息,而该应用程序又不在前台运行时,就可以借助通知来实现.发出一条通知后,手机最上方 ...
- Scala学习之路 (三)Scala的基本使用
一.Scala概述 scala是一门多范式编程语言,集成了面向对象编程和函数式编程等多种特性.scala运行在虚拟机上,并兼容现有的Java程序.Scala源代码被编译成java字节码,所以运行在JV ...
- 利用jenkins打造通过自定义参数更新svn 指定文件任务
jenkin可以执行很多构建任务,有时候我们需要在执行构成中同构shell对服务器进行操作而且还需要进行参数的传入 比如:我要利用svn进行本地代码的更新,单又不是所有代码的更新,只更新指定的1个或这 ...
- 向大家推荐一个在.Net下使用C#语言和Managed DirectX 9开发游戏的视频教程
视频教程:3D游戏开发步步高系列课程(微软课堂).美中不足的是视频的声音和画面不太对应.专心的听声音,听老师讲解吧. PPT和源码下载:3D游戏开发步步高系列课程-PPT和源码 网址链接:3D游戏开发 ...
- VC++环境下单文档SDI与OpenGL多视图分割窗口的实现-类似3DMAX的主界面
本文主要讲述如何在VC++环境下实现单文档SDI与OpenGL多视图分割窗口,最终的界面类似3DMAX的主界面.首先给出我实现的效果图: 整个实现过程网络上有很多零散的博文,请各位自行搜索,在基于对话 ...
- 【LeetCode9】Palindrome Number★
题目描述: 解题思路: 求回文数,并且要求不能使用额外的空间.思路很简单,算出x的倒置数reverse,比较reverse是否和x相等就行了. Java代码: public class LeetCod ...
- [LCT应用]
维护动态生成树,建树方法:假设边edge(x,y),则建立x ->edge->y的先后顺序.
- Hadoop日记Day14---MapReduce源代码回顾总结
一.回顾单词统计源码 package counter; import java.net.URI; import org.apache.hadoop.conf.Configuration; import ...