Spark 倾斜连接

【数据倾斜出现的原因】

并行计算中,我们总希望分配的每一个任务(task)都能以相似的粒度来切分,且完成时间相差不大。但是由于集群中的硬件和应用的类型不同、切分的数据大小不一,总会导致部分任务极大地拖慢了整个任务的完成时间，数据倾斜原因如下：

业务数据本身的特性
Key分布不均匀
建表时考虑不周
某些SQL语句本身就有数据倾斜

数据倾斜的表现：任务进度长时间维持,查看任务监控页面,由于其处理的数据量与其他任务差异过大,会发现只有少量(1个或几个)任务未完成。

【数据倾斜的解决方案】

数据倾斜有很多解决方案,本例简要介绍一种实现方式。假设表A和表B连接,表A数据倾斜,只有一个Key倾斜。首先对A进行采样,统计出最倾斜的Key。将A表分隔为A1只有倾斜Key,A2不包含倾斜Key,然后分别与B连接。

【数据实例】

------

我们要实现上面两个表的连接，很容易发现在table1中（1，tom）出现的次数明显比其他的键值对要多，是倾斜数据。通过处理我们要把它拆分成两部分，如上图所示。然后这两部分分别与table2做连接操作，最后把结果汇总到一起。

【SPARK 代码】

 package spark

 import org.apache.spark.{SparkContext, SparkConf}

 /**

   * Created by Liu Jinhong on 2016/5/27.

   */

 object TiltJoin {

   def main(args: Array[String]) {

     val conf = new SparkConf().setAppName("TiltJoin").setMaster("local")

     val sc = new SparkContext(conf)

     val line1 = sc.textFile("E:\\testdoc\\a.txt")

     val line2 = sc.textFile("E:\\testdoc\\b.txt")

     val table1 = line1.map(_.split(' ')).map(x => (x(0), x(1)))

     val table2 = line2.map(_.split(' ')).map(x => (x(0), x(1)))

     //对table1进行采样

     val sample = table1.sample(false, 0.3, 9).map(x => (x._1, 1)).reduceByKey(_+_)

     //找到table1中的倾斜数据

     val maxrowKey = sample.map(x => (x._2, x._1)).sortByKey(false).take(1).toSeq(0)._2

     //把table1拆分成两个表

     val maxrowTable = table1.filter(_._1 == maxrowKey)

     val maintable = table1.filter(_._1 != maxrowKey)

     val result = sc.union(maxrowTable.join(table2), maintable.join(table2)).foreach(println(_))

   }

 }

【涉及到的函数】

val maxrowKey = sample.map(x => (x._2, x._1)).sortByKey(false).take(1).toSeq(0)._2

上诉代码相当于实现了按照value降序排序。

Spark 倾斜连接的更多相关文章

Spark Streaming连接TCP Socket
1.Spark Streaming是什么 Spark Streaming是在Spark上建立的可扩展的高吞吐量实时处理流数据的框架,数据可以是来自多种不同的源,例如kafka,Flume,Twitte ...
【spark】连接Hbase
0.我们有这样一个表,表名为Student 1.在Hbase中创建一个表表明为student,列族为info 2.插入数据我们这里采用put来插入数据格式如下 put ‘表命’,‘行键’, ...
Spark Streaming连接Kafka的两种方式 direct 跟receiver 方式接收数据的区别
Receiver是使用Kafka的高层次Consumer API来实现的. Receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的,然后Spark Streaming ...
Spark join连接
内链接
Spark SQL 官方文档-中文翻译
Spark SQL 官方文档-中文翻译 Spark版本:Spark 1.5.2 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 Data ...
《Spark大数据处理：技术、应用与性能优化》
基本信息作者: 高彦杰丛书名:大数据技术丛书出版社:机械工业出版社 ISBN:9787111483861 上架时间:2014-11-5 出版日期:2014 年11月开本:16开页码:255 ...
《Spark大数据处理：技术、应用与性能优化》【PDF】下载
内容简介 <Spark大数据处理:技术.应用与性能优化>根据最新技术版本,系统.全面.详细讲解Spark的各项功能使用.原理机制.技术细节.应用方法.性能优化,以及BDAS生态系统的相关技 ...
《Spark大数据处理：技术、应用与性能优化》【PDF】
内容简介 <Spark大数据处理:技术.应用与性能优化>根据最新技术版本,系统.全面.详细讲解Spark的各项功能使用.原理机制.技术细节.应用方法.性能优化,以及BDAS生态系统的相关技 ...
Spark记录-SparkSql官方文档中文翻译（部分转载）
1 概述(Overview) Spark SQL是Spark的一个组件,用于结构化数据的计算.Spark SQL提供了一个称为DataFrames的编程抽象,DataFrames可以充当分布式SQL查 ...

随机推荐

Uva 10780 Again Prime? No Time.（分解质因子）
题意:给你两个数m和n,问 n! 可以被 m^k 整除的k的最大值思路:从这道我们可以想到n!末尾有多少个0的问题,让我们先想一下它的思想,我们找 n! 末尾有多少0, 实际上我们是在找n!中5的个 ...
将stack翻译成"堆栈"实在是误人子弟
也不知道从何时起,也不知道是哪个"教授"还是"老师",将stack翻译成堆栈(据说台湾叫做"堆叠").窃以为,这种翻译实在是误人子弟(题外话 ...
基于 Consul 的 Docker Swarm 服务发现
Docker 是一种新型的虚拟化技术,它的目标在于实现轻量级操作系统的虚拟化.相比传统的虚拟化方案,Docker 虚拟化技术有一些很明显的优势:启动容器的速度明显快于传统虚拟化技术,同时创建一台虚拟机 ...
回文质数 Prime Palindromes
题目描述因为151既是一个质数又是一个回文数(从左到右和从右到左是看一样的),所以 151 是回文质数. 写一个程序来找出范围[a,b](5 <= a < b <= 100,000 ...
Java NIO Channel和Buffer
Java NIO Channel和Buffer @author ixenos Channel和Buffer的关系 1.NIO速度的提高来自于所使用的结构更接近于OS执行I/O的方式:通道和缓冲器: 2 ...
[kuangbin带你飞]专题六最小生成树 POJ 1287 Networking
最小生成树模板题跑一次kruskal就可以了 /* *********************************************** Author :Sun Yuefeng Creat ...
Gentoo解决Windows系统txt文本中文乱码问题
Linux与Windows系统语言编码区别在Linux操作系统下,我们有时打开在windows下的txt文件,发现在windows下能正常显示的txt文件出现了中文乱码. 出现这种情况的原因为两种操 ...
C++从函数返回指针
C++ 允许您从函数返回指针.为了做到这点,必须声明一个返回指针的函数,如下所示: int * myFunction() { . . . } 另外,C++ 不支持在函数外返回局部变量的地址,除非定义局 ...
【Python之路】第十一篇--CSS
css CSS是Cascading Style Sheets的简称,中文称为层叠样式表,用来控制网页数据的表现,可以使网页的表现与数据内容分离. 一.css的四种引入方式 1.行内式行内式是在标记的 ...
echarts样式修改
本人是查看如下链接: http://down.admin5.com/demo/code_pop/cs/dsj/doc/example/themeDesigner.html# 图示很简洁明了.

Spark 倾斜连接

Spark 倾斜连接的更多相关文章

随机推荐

热门专题