Spark是目前最流行的分布式计算框架，而HBase则是在HDFS之上的列式分布式存储引擎，基于Spark做离线或者实时计算，数据结果保存在HBase中是目前很流行的做法。例如用户画像、单品画像、推荐系统等都可以用HBase作为存储媒介，供客户端使用。

因此Spark如何向HBase中写数据就成为很重要的一个环节了。本文将会介绍三种写入的方式，其中一种还在期待中，暂且官网即可...

代码在spark 2.2.0版本亲测

1. 基于HBase API批量写入

第一种是最简单的使用方式了，就是基于RDD的分区，由于在spark中一个partition总是存储在一个excutor上，因此可以创建一个HBase连接，提交整个partition的内容。

大致的代码是:

rdd.foreachPartition { records =>

	val config = HBaseConfiguration.create

    config.set("hbase.zookeeper.property.clientPort", "2181")

    config.set("hbase.zookeeper.quorum", "a1,a2,a3")

    val connection = ConnectionFactory.createConnection(config)

    val table = connection.getTable(TableName.valueOf("rec:user_rec"))

    // 举个例子而已，真实的代码根据records来

	val list = new java.util.ArrayList[Put]

    for(i <- 0 until 10){

		val put = new Put(Bytes.toBytes(i.toString))

        put.addColumn(Bytes.toBytes("t"), Bytes.toBytes("aaaa"), Bytes.toBytes("1111"))

        list.add(put)

    }

    // 批量提交

	table.put(list)

	// 分区数据写入HBase后关闭连接

    table.close()

}

这样每次写的代码很多，显得不够友好，如果能跟dataframe保存parquet、csv之类的就好了。下面就看看怎么实现dataframe直接写入hbase吧！

2. Hortonworks的SHC写入

由于这个插件是hortonworks提供的，maven的中央仓库并没有直接可下载的版本。需要用户下载源码自己编译打包，如果有maven私库，可以上传到自己的maven私库里面。具体的步骤可以参考如下：

2.1 下载源码、编译、上传

去官网github下载即可：https://github.com/hortonworks-spark/shc

可以直接按照下面的readme说明来，也可以跟着我的笔记走。

下载完成后，如果有自己的私库，可以修改shc中的distributionManagement。然后点击旁边的maven插件deploy发布工程，如果只想打成jar包，那就直接install就可以了。

2.2 引入

在pom.xml中引入：

<dependency>

    <groupId>com.hortonworks</groupId>

    <artifactId>shc-core</artifactId>

    <version>1.1.2-2.2-s_2.11-SNAPSHOT</version>

</dependency>

2.3

首先创建应用程序，Application.scala

object Application {

	def main(args: Array[String]): Unit = {

		val spark = SparkSession.builder().master("local").appName("normal").getOrCreate()

	    spark.sparkContext.setLogLevel("warn")

		val data = (0 to 255).map { i =>  HBaseRecord(i, "extra")}

	    val df:DataFrame = spark.createDataFrame(data)

	    df.write

	      .mode(SaveMode.Overwrite)

	      .options(Map(HBaseTableCatalog.tableCatalog -> catalog))

	      .format("org.apache.spark.sql.execution.datasources.hbase")

	      .save()

	}

	def catalog = s"""{

                   |"table":{"namespace":"rec", "name":"user_rec"},

                   |"rowkey":"key",

                   |"columns":{

                   |"col0":{"cf":"rowkey", "col":"key", "type":"string"},

                   |"col1":{"cf":"t", "col":"col1", "type":"boolean"},

                   |"col2":{"cf":"t", "col":"col2", "type":"double"},

                   |"col3":{"cf":"t", "col":"col3", "type":"float"},

                   |"col4":{"cf":"t", "col":"col4", "type":"int"},

                   |"col5":{"cf":"t", "col":"col5", "type":"bigint"},

                   |"col6":{"cf":"t", "col":"col6", "type":"smallint"},

                   |"col7":{"cf":"t", "col":"col7", "type":"string"},

                   |"col8":{"cf":"t", "col":"col8", "type":"tinyint"}

                   |}

                   |}""".stripMargin

}

case class HBaseRecord(

                  col0: String,

                  col1: Boolean,

                  col2: Double,

                  col3: Float,

                  col4: Int,

                  col5: Long,

                  col6: Short,

                  col7: String,

                  col8: Byte)

object HBaseRecord

{

  def apply(i: Int, t: String): HBaseRecord = {

    val s = s"""row${"%03d".format(i)}"""

    HBaseRecord(s,

      i % 2 == 0,

      i.toDouble,

      i.toFloat,

      i,

      i.toLong,

      i.toShort,

      s"String$i: $t",

      i.toByte)

  }

}

然后再resources目录下，添加hbase-site.xml、hdfs-site.xml、core-site.xml等配置文件。主要是获取Hbase中的一些连接地址。

3. HBase 2.x+即将发布的hbase-spark

如果有浏览官网习惯的同学，一定会发现，HBase官网的版本已经到了3.0.0-SNAPSHOT，并且早就在2.0版本就增加了一个hbase-spark模块，使用的方法跟上面hortonworks一样，只是format的包名不同而已，猜想就是把hortonworks给拷贝过来了。

另外Hbase-spark 2.0.0-alpha4目前已经公开在maven仓库中了。

http://mvnrepository.com/artifact/org.apache.hbase/hbase-spark

不过，内部的spark版本是1.6.0，太陈旧了！！！！真心等不起了...

期待hbase-spark官方能快点提供正式版吧。

参考

hortonworks-spark/shc github：https://github.com/hortonworks-spark/shc
maven仓库地址: http://mvnrepository.com/artifact/org.apache.hbase/hbase-spark
Hbase spark sql/ dataframe官方文档：https://hbase.apache.org/book.html#_sparksql_dataframes

Spark DataFrame写入HBase的常用方式的更多相关文章

Spark写入HBase（Bulk方式）
在使用Spark时经常需要把数据落入HBase中,如果使用普通的Java API,写入会速度很慢.还好Spark提供了Bulk写入方式的接口.那么Bulk写入与普通写入相比有什么优势呢? BulkLo ...
spark踩坑——dataframe写入hbase连接异常
最近测试环境基于shc[https://github.com/hortonworks-spark/shc]的hbase-connector总是异常连接不到zookeeper,看下报错日志: 18/06 ...
spark DataFrame的创建几种方式和存储
一. 从Spark2.0以上版本开始,Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载.转换.处理等功能.Sp ...
Spark:DataFrame 写入文本文件
将DataFrame写成文件方法有很多最简单的将DataFrame转换成RDD,通过saveASTextFile进行保存但是这个方法存在一些局限性:1.将DataFrame转换成RDD或导致数据结构的 ...
Spark如何写入HBase/Redis/MySQL/Kafka
一些概念一个partition 对应一个task,一个task 必定存在于一个Executor,一个Executor 对应一个JVM. Partition 是一个可迭代数据集合 Task 本质是作用 ...
spark运算结果写入hbase及优化
在Spark中利用map-reduce或者spark sql分析了数据之后,我们需要将结果写入外部文件系统. 本文,以向Hbase中写数据,为例,说一下,Spark怎么向Hbase中写数据. 首先,需 ...
Spark:将DataFrame写入Mysql
Spark将DataFrame进行一些列处理后,需要将之写入mysql,下面是实现过程 1.mysql的信息 mysql的信息我保存在了外部的配置文件,这样方便后续的配置添加. //配置文件示例: [ ...
大数据学习day34---spark14------1 redis的事务(pipeline)测试，2. 利用redis的pipeline实现数据统计的exactlyonce ，3 SparkStreaming中数据写入Hbase实现ExactlyOnce， 4.Spark StandAlone的执行模式，5 spark on yarn
1 redis的事务(pipeline)测试 Redis本身对数据进行操作,单条命令是原子性的,但事务不保证原子性,且没有回滚.事务中任何命令执行失败,其余的命令仍会被执行,将Redis的多个操作放到 ...
MapReduce和Spark写入Hbase多表总结
作者:Syn良子出处:http://www.cnblogs.com/cssdongl 转载请注明出处大家都知道用mapreduce或者spark写入已知的hbase中的表时,直接在mapreduc ...

随机推荐

数据结构链式哈希表（Hash Table）的接口定义与实现分析（完整代码）
链式哈希表的接口定义关于哈希表与链式哈希表的描述可以参阅:http://www.cnblogs.com/idreamo/p/7990860.html 链式哈希表的操作与属性有:初始化.销毁.插入元素 ...
xampp使用中mysql端口被占用问题的解决方案
如果在安装XAMPP前本机已经安装了mysql,并且添加了Windows服务中使用xampp时,两个Mysql在Windows服务中有冲突这意味着你之前在电脑上使用过mysql,路径.端口都被占用 ...
使用Botkit和Rasa NLU构建智能聊天机器人
欢迎大家前往云+社区,获取更多腾讯海量技术实践干货哦~ 我们每天都会听到关于有能力涉及旅游.社交.法律.支持.销售等领域的新型机器人推出的新闻.根据我最后一次查阅的数据,单单Facebook Me ...
python_继承supper错误
问题: qs = super(BnnerCourseAdmin, self).queryset() TypeError: super(type, obj): obj must be an instan ...
重温吕鑫MFC教学视频(一)
重温吕鑫MFC教学视频(一)1. picture控件的使用,可以显示icon和bitmap2. WM_Create窗口的创建3. 创建的销毁消息及区别WM_SYSCOMMAND WM_CLOSE WM ...
C/C++基础知识总结
[006] HIWORD宏取高16位. [005] 使用strcmp需判断参数是否为NULL [004] main函数的第三个参数envp 有的编译器支持三个参数的main函数,但不推荐这么写. [0 ...
一、Python表达式基础
Python 能执行简单的计算器的功能: 如>>2+2 ==> 4,1/2==>0.5或者这样写1/2.0==>0.5(取浮点型) 1//2 ==>0 (" ...
CURL post/get提交
public function curlss($url){ $curl = curl_init(); // 设置你需要抓取的URL curl_setopt($curl, CURLOPT_URL, $u ...
Sql Server的艺术（六） SQL 子查询，创建使用返回多行的子查询，子查询创建视图
子查询或内部查询或嵌套查询在另一个SQL查询的查询和嵌入式WHERE子句中. 子查询用于返回将被用于在主查询作为条件的数据,以进一步限制要检索的数据. 子查询可以在SELECT,INSERT,UPDA ...
HBuilder打包Android apk 支付不了问题解决
第一步: 安卓生成自有证书:到JRE的bin目录下,运行keytool命令:cd C:\Program Files\Java\jre1.8.0_91\binkeytool -genkey -alias ...

Spark DataFrame写入HBase的常用方式