Partition和ReduceTask的关系

先看源码：

    numPartitions = conf.getNumReduceTasks();

      if (numPartitions > 1) {            //设置了ReduceTask个数后（大于1），默认通过下面的getPartition()对数据进行分区

        partitioner = (Partitioner<K,V>)

          ReflectionUtils.newInstance(conf.getPartitionerClass(), conf);

      } else {

        partitioner = new Partitioner<K,V>() {

          @Override

          public void configure(JobConf job) { }

          @Override

          public int getPartition(K key, V value, int numPartitions) {

            return numPartitions - 1;      //默认情况下，ReduceTask个数为1,此时只有一个分区 即partition 0

          }

      //默认分区是根据key的hashcode对ReduceTasks个数取余得到的，用户无法控制哪个key存储到哪个分区 


       public int getPartition(K key, V value,

                 int numReduceTasks) {

　　　　　　　　　　return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;

 　　　　　　 }

结论：

1.ReduceTask的数量由job提交时的参数决定：job.setNumReduceTasks()。设置为多少，就开启多少个ReduceTask，默认为1。设置为0时，则表示没有Reduce阶段，只有Map阶段。生成文件数量由ReduceTask数量决定。

2.Partitioner的数量由ReduceTask的数量决定，Partitioner数量 =ReduceTask数量。

其中：　　1）若ReduceTask = 1 ，无论用户有没有自定义分区规则，都只有一个分区。

　　　　　2）若设置ReduceTask >1,则如果用户没有自定义Partitioner，则按照默认的HashPartitioner对数据进行划分。

　　　　　　　　　　　　　　　　　　如果用户自定义了Partitioner，则其中的分区的个数不能超过Partittion的数量，否则会 Exception。

Partition和ReduceTask的关系的更多相关文章

Spark中的partition和block的关系
hdfs中的block是分布式存储的最小单元,类似于盛放文件的盒子,一个文件可能要占多个盒子,但一个盒子里的内容只可能来自同一份文件.假设block设置为128M,你的文件是250M,那么这份文件占3 ...
深入了解Kafka【五】Partition和消费者的关系
1.消费者与Partition 以下来自<kafak权威指南>第4章. 假设主题T1有四个分区. 1.1.一个消费者组 1.1.1.消费者数量小于分区数量只有一个消费者时,消费者1将收到 ...
Spark RDD概念学习系列之rdd的依赖关系彻底解密（十九）
本期内容: 1.RDD依赖关系的本质内幕 2.依赖关系下的数据流视图 3.经典的RDD依赖关系解析 4.RDD依赖关系源码内幕 1.RDD依赖关系的本质内幕由于RDD是粗粒度的操作数据集,每个Tra ...
Spark名词解释及关系
随着对spark的业务更深入,对spark的了解也越多,然而目前还处于知道的越多,不知道的更多阶段,当然这也是成长最快的阶段.这篇文章用作总结最近收集及理解的spark相关概念及其关系. 名词 dri ...
Hadoop(17)-MapReduce框架原理-MapReduce流程,Shuffle机制,Partition分区
MapReduce工作流程 1.准备待处理文件 2.job提交前生成一个处理规划 3.将切片信息job.split,配置信息job.xml和我们自己写的jar包交给yarn 4.yarn根据切片规划计 ...
大数据学习笔记之Hadoop（三）：MapReduce&YARN
文章目录一 MapReduce概念 1.1 为什么要MapReduce 1.2 MapReduce核心思想 1.3 MapReduce进程 1.4 MapReduce编程规范(八股文) 1.5 Ma ...
大数据技术之Hadoop（MapReduce）
第1章 MapReduce概述 1.1 MapReduce定义 1.2 MapReduce优缺点 1.2.1 优点 1.2.2 缺点 1.3 MapReduce核心思想 MapReduce核心编程思想 ...
Mapreduce之排序&规约&实战案例
MapReduce 排序和序列化简单介绍 ①序列化 (Serialization) 是指把结构化对象转化为字节流②反序列化 (Deserialization) 是序列化的逆过程. 把字节流转为结构化 ...
Hadoop详解(05) – MapReduce
Hadoop详解(05) – MapReduce MapReduce概述定义 MapReduce是一个分布式运算程序的编程框架,是用户 "基于Hadoop的数据分析应用" 开发的 ...
kafka性能参数和压力测试揭秘
转自:http://blog.csdn.net/stark_summer/article/details/50203133 上一篇文章介绍了Kafka在设计上是如何来保证高时效.大吞吐量的,主要的内容 ...

随机推荐

16 JavaScript逗号运算符
16 JavaScript逗号运算符 Python 逗号运算符一般用于组合多个表达式,其返回值是最后一个表达式的值,例如: function s(){ console.log(1), console. ...
C/C++ 项目构建指南：如何使用 Makefile 提高开发效率
Makefile是一个常用的自动化构建工具,它可以为开发人员提供方便的项目构建方式.在C/C++项目中,Makefile可以用来编译.链接和生成可执行文件.使用Makefile的好处是可以自动执行一系 ...
HarmonyOS传感器开发指南
HarmonyOS系统传感器是应用访问底层硬件传感器的一种设备抽象概念.开发者根据传感器提供的Sensor接口,可以查询设备上的传感器,订阅传感器数据,并根据传感器数据定制相应的算法开发各类应用, ...
Stage模型深入解读
原文链接:https://mp.weixin.qq.com/s/4Mb5BMw1IgKvqE0Ff9Ts-w,点击链接查看更多技术内容: HarmonyOS 3.1版本(API 9)推出了全新应 ...
重新整理.net core 计1400篇[二] (.net core 改造控制台项目)
前言为.net core 命令行的基础上写的,如果有兴趣的话,可以去看我的.net core 前文. 下面介绍如何将.net core控制台转换为.net core web应用. 正文如果我们要实 ...
lattice烧录器回读功能。
经常被人问,lattice的怎么回读,下面就说这个步骤. 烧录器检测到设备以后,以后选择operation,选择flash programming mode ,选择flash read and sa ...
利用navicat实现excel转json
1.需要工具,Navicat Premium,网上有破解及安装教程 2.新建sqlite连接,选择新建sqlite3,如下图 3.接着点确定,如图 4. 5.
搞定了 6 种分布式ID，分库分表哪个适合做主键？
大家好,我是小富- 本文是<ShardingSphere5.x分库分表原理与实战>系列的第七篇,目前系列的前几篇制作成了PDF,需要的可以在文末获取下载方式,持续更新中.今天咱们继续一起来 ...
对中间件概念的理解，如何封装 node 中间件
一.是什么中间件(Middleware)是介于应用系统和系统软件之间的一类软件,它使用系统软件所提供的基础服务(功能),衔接网络上应用系统的各个部分或不同的应用,能够达到资源共享.功能共享的目的在 ...
07cj031,07CJ03-1图集免费下载
简介 07CJ03-1轻钢龙骨石膏板隔墙.吊顶图集是中国建筑标准设计研究院组织编写的一部针对轻钢龙骨.石膏板材料用于非承重隔墙.室内吊顶装修的装修.建造参考资料,为用户提供专业的建造参考下载有需要 ...

Partition和ReduceTask的关系

Partition和ReduceTask的关系的更多相关文章

随机推荐

热门专题