apache开源项目 -- tez

为了更高效地运行存在依赖关系的作业（比如Pig和Hive产生的MapReduce作业），减少磁盘和网络IO，Hortonworks开发了DAG计算框架Tez。Tez是从MapReduce计算框架演化而来的通用DAG计算框架，可作为MapReduceR/Pig/Hive等系统的底层数据处理引擎，它天生融入Hadoop 2.0中的资源管理平台YARN，且由Hadoop 2.0核心人员精心打造，势必将会成为计算框架中的后起之秀。本文将重点介绍Tez的最新进展。

在阅读本文之前，读者可先阅读我之前写的三篇文章了解Tez有关背景、设计原理等：

(1) 浅谈Apache Tez中的优化技术

(2) Apache Tez：一个运行在YARN之上支持DAG作业的计算框架

(3) Tez：运行在YARN上的DAG计算框架

总结起来，Tez有以下几个特色：

（1）丰富的数据流（dataflow，NOT Streaming！）编程接口；

（2）扩展性良好的“Input-Processor-Output”运行模型；

（3）简化数据部署（充分利用了YARN框架，Tez本身仅是一个客户端编程库，无需事先部署相关服务）

（4）性能优于MapReduce

（5）优化的资源管理（直接运行在资源管理系统YARN之上）

（6）动态生成物理数据流（dataflow）

声明：本文大部分内容源自Apache Tez官方主页中的说明文档，有兴趣的读者可进入http://tez.incubator.apache.org/了解更多内容，你也可以根据文档说明安装Tez（需要apache最新版本 2.1.0-beta或者3.0.0，CDH暂不支持，版本太老），进而对它有一个更加直观的理解。

1. 优化举例

为了方便大家理解Tez的优化效果，接下来给出两个例子予以说明。

（1）MRR*应用

比如以下Hive SQL会翻译成两个MR作业，而采用Tez则生成一个DAG作业，可大大减少磁盘IO：

SELECT DeptName, COUNT(*) as c FROM EmployeeTable GROUP BY DeptName ORDER BY c;

（2）Join应用

比如以下Hive SQL会翻译成四个MR作业，而采用Tez则生成一个DAG作业，可大大减少磁盘IO：

SELECT a.state, COUNT(*), AVERAGE(c.price)

FROM a

JOIN b ON(a.id = b.id)

JOIN c ON(a.itemId = c.itemId)

GROUP BY a.state

2. 术语介绍

可类比数据库中的概念理解这些术语，比如数据库中的逻辑计划和物理计划：Job Vertex、Job Edge和Static Plan属于逻辑计划概念；Vertex、Edge和Dynamic Plan属于物理计划概念。

（1）Job Vertex：作业规划中的一个阶段（Stage）；

（2） Job Edge：两个不同Job Vertex之间的逻辑关联；

（3） Vertex: 运行时生成的物化阶段，由若干个可以执行的Task构成；

（4） Edge: Task之间数据移动方式；

（5） Task: 能够完成计算任务的线程，实际运行在YARN Container中；

（6） Task cardinality: 任务基数，即Vertex产生的Task数目

（7） Static plan: 作业提交时确定的逻辑执行计划

（8） Dynamic plan:在ApplicationMaster执行时产生的物理执行计划

3. Tez中的通信类型

（1） 1对于1

第一阶段中的任务按照1:1的映射关系将数据传递给下一个阶段中的任务，典型应用是hash join，如下图所示：

（2） 1对于N

第一阶段中的每个任务会产生N份数据（N是下一个阶段中的任务数目），每份数据由下一个阶段的一个任务读取，这类似与MapReduce的Shuffle阶段，具体有两种实现方式：

方式1：每个任务产生的N份数据放到N个文件中，供下一个阶段的任务直接获取，这种方式可能产生过多的文件，可能难以扩展到上千个任务的场景；

方式2：每个任务产生的N份数据放放到一个文件中，并增加一个索引文件记录每份数据中偏移量，这种方式的扩展性非常好，Hadoop MapReduce正是采用了这种实现（设计之初，Hadoop MapReduce层采用方式1中的方案）。

4. Tez新引入的优化机制

（1）动态确定任务基数

DAG中每个Vertex需启动一定数目的任务并行处理对应的数据，Tez可根据用户设置的策略动态确定每个Vertex需启动的任务数，比如根据数据量、最大并发数等。

（2）解决数据倾斜问题

数据倾斜是分布式计算中影响数据处理效率的最大顽疾之一，很多工作在这方面开展但一直没有非常好的解决方案。目前看来，比较有效的方案是在应用程序层解决，即用户根据实际数据特点编写最有效的应用程序，尽可能避免数据倾斜问题。

数据倾斜的一种典型场景是大批量的数据的key值是相同的，这使得按key划分数据后，大量数据落到一个任务上，从而使得该任务成为“拖后腿”任务，甚至导致运行失败。为了解决该问题，在数据引擎层面，Tez可根据每个任务的处理数据量调整占用的资源，对于那些处理数据量大的任务，可多分配一些资源。

5. Tez未来发展

在将来，Tez将增加以下几个特性：

（1）任务抢占，即可通过资源抢占的方式，让优先级更高的任务优先运行；

（2）任务执行断点检查，通过对任务执行过程记录断点，可在任务失败时从断点恢复运行，以避免任务重算（这个功能难度很大）；

（3） ApplicationMaster执行断点检查，这个可借鉴MapReduce ApplicationMaster实现，就目前YARN的架构设计而言，只能做到（ApplicationMaster失败后）已经完成的任务不重新计算，对于正在运行的任务需重新计算；

（4）应用程序的Container重用，同一个应用程序的多个任务可重用一个Container中，该功能是一个非常重要的feature，很多YARN上框架都在做！

（5）不同应用程序的Container重用，即不同应用程序的多个任务可重用一个Container，这个功能难度较大！

6. 参考资料

（1）Tez官方网站：http://tez.incubator.apache.org/

（2）Tez官方文档：https://issues.apache.org/jira/secure/attachment/12588887/Tez%20Design%20v1.1.pdf

（3）Tez SVN：https://issues.apache.org/jira/browse/TEZ

参考：

http://dongxicheng.org/mapreduce-nextgen/apache-tez-newest-progress/

apache开源项目 -- tez的更多相关文章

apache开源项目--Apache Drill
为了帮助企业用户寻找更为有效.加快Hadoop数据查询的方法,Apache 软件基金会发起了一项名为“Drill”的开源项目.Apache Drill 实现了 Google's Dremel. Apa ...
15个非常重要的Apache开源项目汇总
15个非常重要的Apache开源项目汇总自1999年创立以来,Apache软件基金会如今已成了众多重要的开源软件项目之家.本文列举了15个多年来非常重要的Apache项目,这些项目不仅对开源运动来说 ...
apache开源项目 --Struts
struts简介 Struts是Apache软件基金会(ASF)赞助的一个开源项目.它最初是jakarta项目中的一个子项目,并在2004年3月成为ASF的顶级项目.它通过采用JavaServlet/ ...
apache开源项目 -- Tuscany
tuscany是Apache组织关于SOA实现的一个开放源码的工程项目,目前处于孵化期阶段. 该项目主要基于SCA,SDO,DAS等技术上实现的. SCA 的基本概念以及 SCA 规范的具体内容并不在 ...
apache开源项目--Mahout
Apache Mahout 是 Apache Software Foundation (ASF) 开发的一个全新的开源项目,其主要目标是创建一些可伸缩的机器学习算法,供开发人员在 Apache 在许可 ...
apache开源项目--CouchDB
Apache CouchDB 是一个面向文档的数据库管理系统.它提供以 JSON 作为数据格式的 REST 接口来对其进行操作,并可以通过视图来操纵文档的组织和呈现. CouchDB 是 Apache ...
apache开源项目--Cassandra
Apache Cassandra是一套开源分布式Key-Value存储系统.它最初由Facebook开发,用于储存特别大的数据.Facebook目前在使用此系统. 主要特性: 分布式基于column ...
apache开源项目--nutch
Nutch 是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. Nutch的创始人是Doug Cutting,他同时也是Lucene.Hado ...
15个具有高度影响力的Apache开源项目
自1999年创立以来,Apache软件基金会如今已成了众多重要的开源软件项目之家.其中成功的项目有Geronimo,有Tomcat,有Hadoop,有如今成了大数据王国关键车毂的分布式计算系统. 虽然 ...

随机推荐

Unix无缓冲文件操作函数、文件信息查询
问题描述: Unix无缓冲文件操作函数.文件信息查询问题解决: struct stat 结构体信息: 具体代码: 具体源文件:
iframe嵌入其他网站，如何自适应高度
终于有一周时间,工作不那么忙了,腾出手来总结下工作过程中学到的知识. 每天遇到新问题,解决新问题,但是却很少有时间去仔细研究下,或者总结下.攒的多了,就得从头捋一遍. 说下iframe自适应高度: 搜 ...
[设计模式] 15 解释器模式 Interpreter
在GOF的<设计模式:可复用面向对象软件的基础>一书中对解释器模式是这样说的:给定一个语言,定义它的文法的一种表示,并定义一个解释器,这个解释器使用该表示来解释语言中的句子.如果一种特定类 ...
c# Invoke和BeginInvoke 区别
原文:http://www.cnblogs.com/mashang/archive/2009/08/01/1536730.html Control.Invoke 方法 (Delegate) :在拥有此 ...
POJ3267The Cow Lexicon
http://poj.org/problem?id=3267 题意 : 给你一个message,是给定字符串,然后再给你字典,让你将message与字典中的单词进行匹配,输出要删掉多少字母. 思路 : ...
C# 中的命名规则
需要注意: C# 区分大小写 ,若有int a 和 int A ,则a, 和 A是不同的普通字段,属相,方法,类的命名规则: C#中推荐使用 camelCasing ,和 PascalCasing ...
Spark安装部署
原创文章,转载请注明: 转载自www.cnblogs.com/tovin/p/3820979.html 一.系统环境配置参照http://www.cnblogs.com/tovin/p/381890 ...
java：类集框架
类集框架:jdk提供的一系列类和接口,位于java.util包当中,主要用于存储和管理对象,主要分为三大类:集合.列表和映射. 集合Set:用于存储一系列对象的集合.无序.不允许重复元素. 列表Lis ...
C++：向函数传递对象(对象、对象指针、对象引用)
3.5.1 使用对象作为函数参数,其方法与传递基本类型的变量相同 //例3.21 使用对象作为函数参数 #include<iostream> using namespace std; ...
Android 动态改变布局属性RelativeLayout.LayoutParams.addRule()
我们知道,在 RelativeLayout 布局中有很多特殊的属性,通常在载入布局之前,在相关的xml文件中进行静态设置即可. 但是,在有些情况下,我们需要动态设置布局的属性,在不同的条件下设置不同的 ...

apache开源项目 -- tez

apache开源项目 -- tez的更多相关文章

随机推荐

热门专题