Spark分区器浅析

分区器作用：决定该数据在哪个分区

概览：

仅仅只有pairRDD才可能持有分区器，普通RDD的分区器为None
在分区器为None时RDD分区一般继承至父RDD分区
初始RDD分区数：
- 由集合创建，RDD分区数为cores总数
- 由本地文件创建，RDD分区数为本地文件分片数
- 由HDFS文件创建，RDD分区数为block数

1、HashPartitioner

计算公式：x=key.hashcode%分区数，如果为正 x即该数据所在分区，如果为负 x+总分区数即为当前key所在分区

触发情况：

reducebykey，groupbykey,join等算子会自动调用

通过Partitionby设置

2、RangePartitioner

原理：通过水塘抽样法确定key值分区后分区临界点，再划分

水塘抽样算法原理：https://www.cnblogs.com/strugglion/p/6424874.html

注意：采样中需要collect，所以会触发action

触发情况：sortbykey

3、自定义分区

基础Partitioner，设定分区数和分区方法

class MyPartitioner(n: Int) extends Partitioner{

    override def numPartitions: Int = n

    override def getPartition(key: Any): Int = {

        val k = key.toString.toInt

        k / 100

    }

}

Spark分区器浅析的更多相关文章

Spark源码分析之分区器的作用
最近因为手抖,在Spark中给自己挖了一个数据倾斜的坑.为了解决这个问题,顺便研究了下Spark分区器的原理,趁着周末加班总结一下~ 先说说数据倾斜数据倾斜是指Spark中的RDD在计算的时候,每个 ...
spark自定义分区器实现
在spark中,框架默认使用的事hashPartitioner分区器进行对rdd分区,但是实际生产中,往往使用spark自带的分区器会产生数据倾斜等原因,这个时候就需要我们自定义分区,按照我们指定的字 ...
大数据学习day19-----spark02-------0 零碎知识点（分区，分区和分区器的区别） 1. RDD的使用（RDD的概念，特点，创建rdd的方式以及常见rdd的算子） 2.Spark中的一些重要概念
0. 零碎概念 (1) 这个有点疑惑,有可能是错误的. (2) 此处就算地址写错了也不会报错,因为此操作只是读取数据的操作(元数据),表示从此地址读取数据但并没有进行读取数据的操作 (3)分区(有时间 ...
【Spark 深入学习-08】说说Spark分区原理及优化方法
本节内容 ------------------ · Spark为什么要分区 · Spark分区原则及方法 · Spark分区案例 · 参考资料 ------------------ 一.Spark为什 ...
Spark学习之路（十七）Spark分区
一.分区的概念分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务 ...
Spark（十一）Spark分区
一.分区的概念分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务 ...
Spark学习之路（十七）Spark分区[转]
分区的概念分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务的个 ...
RDD(六)——分区器
RDD的分区器 Spark目前支持Hash分区和Range分区,用户也可以自定义分区,Hash分区为当前的默认分区,Spark中分区器直接决定了RDD中分区的个数.RDD中每条数据经过Shuffle过 ...
重要 | Spark分区并行度决定机制
最近经常有小伙伴在本公众号留言,核心问题都比较类似,就是虽然接触Spark有一段时间了,但是搞不明白一个问题,为什么我从HDFS上加载不同的文件时,打印的分区数不一样,并且好像spark.defaul ...

随机推荐

WAMP 2.5 无法访问局域网的解决方法
打开Apache配置文件 httpd.conf (该文件在wamp\bin\apache\apache2.4.9\conf) DocumentRoot "d:/wamp/www/" ...
Docker容器管理——Docker容器常用命令
1.查看所有的容器 docker ps 2.查看运行的容器 docker ps -a 3.启动.停止.重启docker容器 docker start ... docker stop ... docke ...
Filter案例之敏感词过滤和代理模式
一.需求分析二 .代理模式 1.概念 2.代码实现代理对象可以强转为真实对象,即对应的接口类: 3.通过代理增强方法其中,方法对象invoke真实对象,反射原理: 三.过滤敏感词汇案例代码实现 ...
SpringSecurity-图解
shell编程之免交互
目录: 一.Here Document 免交互二.Expect 一.Here Document 免交互使用I/O重定向的方式将命令列表提供给交互式程序或命令, 比如 ftp.cat 或 read ...
NIO.2中Path,Paths,Files类的使用
Java NIO Java NIO概述 Java NIO(New IO(新io),Non-Blocking IO(非阻塞的io))是从Java 1.4版本开始引入的一套新的IO API,可以替代标准的 ...
systemctl --now参数
1.我们安装一个httpd服务来测试一下 --now参数 yum install httpd 2.查看一下当前服务状态可以看到服务没有启动而且服务没有自启 [root@master1 ~]# s ...
使用Java api对HBase 2.4.5进行增删改查
1.运行hbase 2.新建maven项目 2.将hbase-site.xml放在项目的resources文件夹下 3.修改pom.xml文件,引入hbase相关资源 <repositories ...
项目需求分析与建议——NABCD模型
特点一:旧物再利用N:需求:在我们的校园生活中,会遇到许多自己用不到的东西例如,学过的课本.废置的闲置物品等,这些"废物"往往占据着许多空间却不能够发挥自身的价值,通过我们的校园二 ...
js 之k个一组翻转链表
题目描述将给出的链表中的节点每\ k k 个一组翻转,返回翻转后的链表如果链表中的节点数不是\ k k 的倍数,将最后剩下的节点保持原样你不能更改节点中的值,只能更改节点本身.要求空间复杂度 \ O ...