HBase的bulkLoad

HBase的BulkLoad有两种方式：

thinrow的机制是flatmap把cell的信息进行flatmap；适合少于1万列的数据集；thinrow的涵义就是少行多列；

bulkload的机制则是flatmap的是行，把行在拆分为cell是在map里面做的。适合多余1万列的数据集。

Basic和ThinRows的机制其实类似，但是接收的数据格式不一样，前者接受的是一个二元组ListSeq((keyFamilyQualifier, value))；其中KeyFamilyQualifier(包括rowKey, family, qualifier)以及value，后者是一个二元组List(new ByteArrayWrapper(Bytes.toBytes(rowKey)), familyQualifiersValues) familyQualifiersValues中包含family, qualifier, value。

Basic是一个平行结构，ThinRow其实是一个层级结构；

Basic和thin之间的差别在于入口的数据结构；basic入口的是(rowkey-famil-quantity，cellvalue)，说白了就是一个cellvalue；thinrow的入口参数则是一行数据（rowkey，columnValues），注意，columnValues是一个数组；这种差别直接导致了两者处理的差异性，下面将会讲到；

bulkload在map一下row信息之后，将会进行一次repartitionAndSortWithinPartitions，这个repartion将会导致shuffle，最后是hbaseForeachPartition，这个是一个action；在这个action中将会遍历shuffle的数据，进行处理，好的，basic和thinrow的性能差别就在这里，因为basic的入口是cellvalue，那么在shuffle过程中（RPC），传输的粒度就是一个cellvalue；处理完毕一个相应了，再来一个；对于thinrow而言，一次是一行数据，RPC一次传输的粒度就是一行数据，明显吞吐量要高于basic；

basic的hbaseForeachPartition（it代表一个分区）

it.foreach{ case (keyFamilyQualifier, cellValue:Array[Byte]) => ...

thinrow的hbaseForeachPartition

it.foreach{ case (rowKey:ByteArrayWrapper, familiesQualifiersValues:FamiliesQualifiersValues) => ...

那么为什么对于多于1万列的场景要使用basic呢？就是因为可能会超过RPC的上限，即使没有超过，一次传输一个超大数据对于网络来讲压力也很大。

注意这里有一个Roll的动作，就是bulk/thinrow入口参数有一个max_size，代表多大小对HFile文件进行拆分，Basic默认是HConstants.DEFAULT_MAX_FILE_SIZE，ThinRow其实也是一样的，但是官网坑爹的写了个20，所以导致的每个记录都会单独成为一个HFile，结果爆了一个异常：HFileLoad的大小超过了32。

这个异常本质还是因为Roll Size设置的太小了，采用默认值即可。

　　BulkLoad插入数据的速度将会比采用put方式要快很多：这是因为PUT方式需要些metadata，采用bulkload方式避免了写入metadata，直接通过HFile的添加来实现。但是bulkLoad需要对数据进行组合，这里又要耗费一些时间，所以优势更多的体现在大量数据，分布比较多的设备的场景下。

shuffle指的是各个节点在为reduce准备数据，比如检索，排序同时对数据进行打包；repartion这是对数据进行分区，正常情况下每个分区将会对应一个CPU核，repartition这是通过指定分区规则（指定分区数量或者指定按照某种规则分区）来对数据进行重新分区，重新分区应该只是针对可重用数据才有价值，否则数据重新分区本身就是一件比较耗费性能的事情。

备注：bulkload是在hbase-spark-2.0.0-alpha3.jar下面的\org\apache\hadoop\hbase\spark\HBaseContext.scala中定义的。

参考：

https://hbase.apache.org/book.html（Chapter 102. Bulk Load）

HBase的bulkLoad的更多相关文章

[How to] HBase的bulkload使用方法
1.简介将数据插入HBase表中的方法很多,我们可以通过TableOutputFormat以Mapreduce on HBase的方式将数据插入,也可以单纯的使用客户端API将数据插入.但是以上方法 ...
大数据学习笔记——HBase使用bulkload导入数据
HBase使用bulkload批量导入数据 HBase可使用put命令向一张已经建好了的表中插入数据,然而,当遇到数据量非常大的情况,一条一条的进行插入效率将会大大降低,因此本篇博客将会整理提高批量导 ...
bulk-load 装载HDFS数据到HBase
bulk-load的作用是用mapreduce的方式将hdfs上的文件装载到hbase中,对于海量数据装载入hbase非常有用,参考http://hbase.apache.org/docs/r0.89 ...
通过BulkLoad快速将海量数据导入到Hbase
在第一次建立Hbase表的时候,我们可能需要往里面一次性导入大量的初始化数据.我们很自然地想到将数据一条条插入到Hbase中,或者通过MR方式等. 但是这些方式不是慢就是在导入的过程的占用Region ...
HBase 写优化之 BulkLoad 实现数据快速入库
在第一次建立Hbase表的时候,我们可能需要往里面一次性导入大量的初始化数据.我们很自然地想到将数据一条条插入到Hbase中,或者通过MR方式等.但是这些方式不是慢就是在导入的过程的占用Region资 ...
Spark、BulkLoad Hbase、单列、多列
背景之前的博客:Spark:DataFrame写HFile (Hbase)一个列族.一个列扩展一个列族.多个列用spark 1.6.0 和 hbase 1.2.0 版本实现过spark BulkL ...
sqoop将关系型的数据库得数据导入到hbase中
1.sqoop将关系数据库导入到hbase的参数说明
HBase 实战(1)--HBase的数据导入方式
前言: 作为Hadoop生态系统中重要的一员, HBase作为分布式列式存储, 在线实时处理的特性, 备受瞩目, 将来能在很多应用场景, 取代传统关系型数据库的江湖地位. 本篇博文重点讲解HBase的 ...
[原创]HBase学习笔记（4）- 数据导入
需要分别从Oracle和文本文件往HBase中导入数据,这里介绍几种数据导入方案. 1.使用importTSV导入HBase importTSV支持增量导入.新数据插入,已存在数据则修改. 1.1.首 ...

随机推荐

大数据学习系列（1）-- linux之文件系统结构介绍
1./ 根目录 --------- 所有目录挂在其下 2./boot --------- 存放Ubuntu内核和系统启动文件.系统启动时这些文件先被装载. 3./etc --------- 系统的配置 ...
rm_invalid_file
import xlrd import time import sys import os import requests import sqlite3 import threading curPath ...
js网页视频播放: vcastr22 、 flowplayer 、 jwplayer
实例结构: 实例1: demo.html <embed src="vcastr22.swf?vcastr_file=../wujiandao.flv" allowFullSc ...
【题解】POJ2279 Mr.Young′s Picture Permutations dp
[题解]POJ2279 Mr.Young′s Picture Permutations dp 钦定从小往大放,然后直接dp. \(dp(t1,t2,t3,t4,t5)\)代表每一行多少人,判断边界就能 ...
Mybatis sql注入问题
预编译方式,即PreparedStatement,可以防注入:#{id} <select id="getBlogById" resultType="Blog&quo ...
centos修改mysql密码或者进入mysql后解决Access denied for user ''@'localhost' to database 'mysql错误
原因是MySQL的密码有问题用mysql匿名用户可以进入数据库,但是看不见mysql数据库. 解决办法:具体操作步骤:关闭mysql:# service mysqld stop然后:# mysqld ...
ssm框架与shiro的整合小demo，用idea开发+maven管理
shiro安全框架是目前为止作为登录注册最常用的框架,因为它十分的强大简单,提供了认证.授权.加密和会话管理等功能 . shiro能做什么? 认证:验证用户的身份授权:对用户执行访问控制:判断用户是 ...
Django——form组件is_valid校验机制
#先来归纳一下整个流程#(1)首先is_valid()起手,看seld.errors中是否值,只要有值就是flase#(2)接着分析errors.里面判断_errors是都为空,如果为空返回self. ...
教你如何写一个 Yii2 扩展
前言把一系列相关联的功能使用模块开发,好处多多,维护起来很方便,模块还可以单独发布出去,让下一个项目之间使用,真是方便. 下面我就写一个开发扩展的简单教程. Gii gii 自带帮助我们生成一个基本 ...
c++之默认参数的函数
默认参数,看个例子就明白了 int add(int a=5,int b=6,z=3): int main(){ add():// 全部默认 add(1,5)://第三个参数默认 add(1,2,3): ...

HBase的bulkLoad

HBase的bulkLoad的更多相关文章

随机推荐

热门专题