Sqoop切分数据的思想概况

Sqoop通过--split-by指定切分的字段，--m设置mapper的数量。通过这两个参数分解生成m个where子句，进行分段查询。因此sqoop的split可以理解为where子句的切分。

第一步，获取切分字段的MIN()和MAX()

为了根据mapper的个数切分table,sqoop首先会执行一个sql，用于获取table中该字段的最小值和最大值，源码片段为org.apache.sqoop.mapreduce.DataDrivenImportJob 224行，大体为：

private String buildBoundaryQuery(String col, String query) {

    ....

    return "SELECT MIN(" + qualifiedName + "), MAX(" + qualifiedName + ") "

        + "FROM (" + query + ") AS " + alias;

  }

获取到最大值和最小值，就可以根据不同的字段类型进行切分。

第二步，根据MIN和MAX不同的类型采用不同的切分方式

支持有Date,Text,Float,Integer，Boolean,NText,BigDecimal等等。

数字都是一个套路，就是

步长=（最大值-最小值）/mapper个数

,生成的区间为

[最小值，最小值+步长)

[最小值+2*步长，最小值+3*步长)

...

[最大值-步长，最大值]

可以参考下面的代码片段org.apache.sqoop.mapreduce.db.FloatSplitter 43行：

    List<InputSplit> splits = new ArrayList<InputSplit>();

    ...

    int numSplits = ConfigurationHelper.getConfNumMaps(conf);

    double splitSize = (maxVal - minVal) / (double) numSplits;

...

    double curLower = minVal;

    double curUpper = curLower + splitSize;

    while (curUpper < maxVal) {

        splits.add(new DataDrivenDBInputFormat.DataDrivenDBInputSplit(

          lowClausePrefix + Double.toString(curLower),

          highClausePrefix + Double.toString(curUpper)));

        curLower = curUpper;

        curUpper += splitSize;

    }

这样最后每个mapper会执行自己的sql语句，比如第一个mapper执行：

select * from t where splitcol >= min and splitcol < min+splitsize

第二个mapper又会执行

select * from t where splitcol >= min+splitsize and splitcol < min+2*splitsize

其他字段类型

对于日期，会转变成时间戳，同样采用数字这种套路。

复杂的是字符串这种类型，最简单的方式就是m小于26的时候，比如2，那么按照开头字母就可以切分,[A,M),[M,Z].但是对于hello,helaa这种就只能到第四个字母才能切分了。因此字符串采用的算法是下面这种：

The algorithm used is as follows:

Since there are 2**16 unicode characters, we interpret characters as digits in base 65536. Given a string 's' containing characters s_0, s_1.. s_n, we interpret the string as the number: 0.s_0 s_1 s_2.. s_n in base 65536. Having mapped the low and high strings into floating-point values, we then use the BigDecimalSplitter to establish the even split points, then map the resulting floating point values back into strings.

实在看不懂英文！等再细致研究下在分享。

参考

Hdfs InputSplit切片详解

Sqoop切分数据的思想概况的更多相关文章

sqoop导入数据
来源https://www.cnblogs.com/qingyunzong/p/8807252.html 一.概述 sqoop 是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据 ...
sqoop导入数据到hive
1.1hive-import参数使用--hive-import就可以将数据导入到hive中,但是下面这个命令执行后会报错,报错信息如下: sqoop import --connect jdbc:my ...
sqoop关系型数据迁移原理以及map端内存为何不会爆掉窥探
序:map客户端使用jdbc向数据库发送查询语句,将会拿到所有数据到map的客户端,安装jdbc的原理,数据全部缓存在内存中,但是内存没有出现爆掉情况,这是因为1.3以后,对jdbc进行了优化,改进j ...
python 等频率切分数据
小编最近入坑风控,在工作中需要对数据进行等频率切分,也就是将数据划分成几段,在每段中,数据的出现频率,出现次数是大致相同的,让数据集在每段上呈现出分布均匀的趋势. 小编先是想到df.describe ...
Sqooop- 使用Sqoop进行数据的导入导出
Sqoop是Apache旗下的一个开源框架,专门用来做数据的导入和导出. 官网:https://sqoop.apache.org/ Sqoop的安装非常简单,只需要把下载下来的tar包解压设置两个环境 ...
第3节 sqoop：4、sqoop的数据导入之导入数据到hdfs和导入数据到hive表
注意: (1)\001 是hive当中默认使用的分隔符,这个玩意儿是一个asc 码值,键盘上面打不出来 (2)linux中一行写不下,可以末尾加上一些空格和 “ \ ”,换行继续写余下的命令: bi ...
第3节 sqoop：6、sqoop的数据增量导入和数据导出
增量导入在实际工作当中,数据的导入,很多时候都是只需要导入增量数据即可,并不需要将表中的数据全部导入到hive或者hdfs当中去,肯定会出现重复的数据的状况,所以我们一般都是选用一些字段进行增量的导 ...
[源码解析] PyTorch 流水线并行实现 (3)--切分数据和运行时系统
[源码解析] PyTorch 流水线并行实现 (3)--切分数据和运行时系统目录 [源码解析] PyTorch 流水线并行实现 (3)--切分数据和运行时系统 0x00 摘要 0x01 分割小批次 ...
Sqoop导入数据到mysql数据库报错：ERROR tool.ExportTool: Error during export: Export job failed！（已解决）
问题描述: Container killed by the ApplicationMaster. Container killed on request. Exit code is 143 Conta ...

随机推荐

iOS 面试题搜集
1.#import和#include的区别,@class代表什么? 2.浅拷贝和深拷贝区别是什么? 3.Objective-C中类别和类扩展的区别? 4.Objective-C堆和栈的区别? 5.内存 ...
React生命周期
在react生命周期中,分2段执行,一个挂载的生命周期,一个是组件发生了数据变动,或者事件触发而引发的更新生命周期. 注:react生命周期很重要,对于很多组件场景的应用发挥重要作用,而且不熟悉生命周 ...
iOS分析UI利器——Reveal简单使用
一,简单使用 * 在xcode中打开你的项目(project); * 打开reveal 和选中 Help → Show Reveal Library in Finder * 把Reveal.frame ...
【oracle】union、union all、intersect、minus 的用法及区别
一.union与union all 首先建两个view create or replace view test_view_1 as as c from dual union as c from dua ...
1.2.1 OC概述
本文并非最终版本,如想关注更新或更正的内容,详见文末的联系方式,如有疏忽和遗漏,欢迎指正. 本文相关目录:(链接为简书链接) ====================== 所属文集:1.2 Objec ...
Codeforces 721E Road to Home
题意输入第一行有4个数,分别为$L,n,p,t$,分别表示总长度为$L$的路,中间有$n$个互不相交的区间,现在要用长度为$p$的小木棒从左往右铺路(木棒不能被折断,也不能有重叠,且 ...
CodeIgniter 3.0问题集锦
1.由于ci 3.0的session采用文件存储,在配置好session存储的目录后,在使用时如果遇到如下session错误. 此处 fc 目录为我设置的session目录. 解决将fc目录权限设为7 ...
jQuery中设置form表单中action的值的方法
下面介绍在jQuery中设置form表单中action的值的方法. $("#myFormId").attr("action", "userinfo.s ...
weex append
append有两个值:其中的一个是tree, 另外一个是node. 不会像数据绑定一样对最后的渲染结果有影响.但它决定是否会影响整个节点的重绘还是只是某一个地方的内容会重绘. append=" ...
es6转es5
一.在没有IDE情况下的转换在"我的电脑->D盘”新建个文件夹es6,文件夹里新建一个文件es6.js. 打开命令行窗口 1.先全局安装babel-cli,输入命令 npm inst ...