项目背景

spark sql读hbase据说官网如今在写,但还没稳定,所以我基于hbase-rdd这个项目进行了一个封装,当中会区分是否为2进制,假设是就在配置文件里指定为#b,如long#b,还实用了个公司封装的Byte转其它类型,这个假设别人用须要自己实现一套方案。假设我们完毕这一步,将会得到一个DataFrame,后面就能够registerTmpTable,正常使用了使用hiveContext,是由于有一定的orc文件。我这套方案是兼容hbase和hfile的。比方:

val conf = new SparkConf
implicit val sc = new SparkContext(conf)
implicit val hiveContext = new HiveContext(sc)
HbaseMappingUtil.getHbaseDataFrame(tableName,startRow,stopRow).registerTempTable(tableName)
hiveContext.sql("select * from tableName limit 1").show()

配置文件

配置文件:

hbase {
mapping {
table {
usertriat {
name = "hb_user_trait_7days"
columnfamily = "stat"
columns = ["p_du", "p_counts", "p_period_dist"]
schemas = ["String", "int","string"]
nullable = [true,false,true]
} toddtest {
name = "todd_test"
columnfamily = "cf1"
columns = ["name", "age"]
schemas = ["String", "int"]
nullable = [true, true]
} user {
name = "hb_user"
columnfamily = "user"
columns = ["modifiedTime", "nickname", "isThirdparty"]
schemas = ["long#b", "string", "boolean"]
nullable = [true, true, true]
} }
}
}

就是须要配置一些比方columnfamily。column,是否为空,一定要配,相当于自定格式的一个配置

核心代码

核心代码:

import scala.language._
import unicredit.spark.hbase._
import net.ceedubs.ficus.Ficus._
import org.apache.spark.sql.types._
import org.apache.spark.SparkContext
import com.typesafe.config.ConfigFactory
import org.apache.hadoop.hbase.client.Scan
import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.sql.{DataFrame, Row}
import com.ximalaya.tran.{Bytes, PrimitiveByteTrans, Tran}
import java.lang.{Boolean ⇒ JBoolean, Double ⇒ JDouble, Float ⇒ JFloat, Long ⇒ JLong} /**
* Created by todd.chen on 16/3/28.
* email : todd.chen@ximalaya.com
*/
object HbaseMappingUtil { lazy val config = ConfigFactory.load() def getHbaseDataFrame(table: String)(implicit @transient hiveContext: HiveContext,
@transient sc: SparkContext): DataFrame = {
getHbaseDataFrame(table, None, None)
} def getHbaseDataFrame(table: String, startRow: Option[String], endRow: Option[String])
(implicit @transient hiveContext: HiveContext,
@transient sc: SparkContext): DataFrame = {
lazy val hbasePrefix = s"hbase.mapping.table.$table"
implicit val hbaseConfig = HBaseConfig()
implicit def string2Integer(str: String): Integer = new Integer(str)
val tableName = config.as[String](s"$hbasePrefix.name")
val columnFamily = config.as[String](s"$hbasePrefix.columnfamily")
val _columns = config.as[Set[String]](s"$hbasePrefix.columns")
val _names = _columns.toSeq
val _schemas = config.as[Seq[String]](s"$hbasePrefix.schemas")
val _nullAbles = config.as[Seq[Boolean]](s"$hbasePrefix.nullable")
implicit val columnsZipSchema: Map[String, Tran[_ <: AnyRef, Array[Byte]]] = schemaUtil(table)
val columns = Map(columnFamily → _columns)
val rddSchema = StructType(Seq(StructField("id", StringType, false)) ++ createSchema(_names, _schemas, _nullAbles))
val scan = if (startRow.isDefined && endRow.isDefined) Some(getScan(startRow.get, endRow.get)) else None
def row2Row(row: (String, Map[String, Map[String, Array[Byte]]])) = {
val cf = row._2(columnFamily)
val values = Seq(row._1) ++ _names.map(name ⇒ {
val bytesArray = cf.getOrElse(name, null)
arrayByte2Object(bytesArray, name)
})
Row(values: _*)
}
val rowRdd = if (scan.isDefined) {
sc.hbase[Array[Byte]](tableName, columns, scan.get).map(row2Row
)
} else {
sc.hbase[Array[Byte]](tableName, columns).map(row2Row)
}
hiveContext.createDataFrame(rowRdd, rddSchema)
} private def createSchema(names: Seq[String], schemas: Seq[String], nullAbles: Seq[Boolean]): Seq[StructField] = {
(names, schemas, nullAbles).zipped.map {
case (name, schema, isnull) ⇒ (name, schema, isnull)
}.map(string2StructField)
} private def string2StructField(nameAndStyle: (String, String, Boolean)): StructField = {
val (name, schema, nullAble) = nameAndStyle
schema.toLowerCase match {
case "string" ⇒ StructField(name, StringType, nullAble)
case "double" ⇒ StructField(name, DoubleType, nullAble)
case "int" | "int#b" ⇒ StructField(name, IntegerType, nullAble)
case "long" | "long#b" ⇒ StructField(name, LongType, nullAble)
case "boolean" ⇒ StructField(name, BooleanType, nullAble)
case "float" ⇒ StructField(name, FloatType, nullAble)
case "timestamp" ⇒ StructField(name, TimestampType, nullAble)
case "date" ⇒ StructField(name, DateType, nullAble)
}
} private def arrayByte2Object(arrayBytes: Array[Byte], column: String)
(implicit columnsZipTran: Map[String, Tran[_ <: AnyRef, Array[Byte]]]) = {
val tran = columnsZipTran.get(column).get
tran.from(arrayBytes)
} private def schemaUtil(tableName: String) = {
lazy val hbasePrefix = s"hbase.mapping.table.$tableName"
val _columns = config.as[Seq[String]](s"$hbasePrefix.columns")
val _schemas = config.as[Seq[String]](s"$hbasePrefix.schemas")
column2Tran(_columns.zip(_schemas))
} private def column2Tran(columnZipSchema: Seq[(String, String)]) = {
var columnZipTran = Map.empty[String, Tran[_ <: AnyRef, Array[Byte]]]
columnZipSchema.foreach { cs ⇒
val (column, schema) = cs
columnZipTran += column → schema2Tran(schema)
}
columnZipTran
} private def schema2Tran(schema: String): Tran[_ <: AnyRef, Array[Byte]] = {
schema.toLowerCase match {
case "string" ⇒ PrimitiveByteTrans.getTran(classOf[String])
case "boolean" ⇒ PrimitiveByteTrans.getTran(classOf[JBoolean])
case "double" ⇒ PrimitiveByteTrans.getTran(classOf[JDouble])
case "float" ⇒ PrimitiveByteTrans.getTran(classOf[JFloat])
case "long" ⇒ new Tran[JLong, Array[Byte]] {
override def from(to: Array[Byte]): JLong = {
val num = Bytes.toString(to)
if (num == null) null else new JLong(num)
} override def to(from: JLong): Array[Byte] = Bytes.toBytes(from.toString)
}
case "long#b" ⇒ PrimitiveByteTrans.getTran(classOf[JLong])
case "int" ⇒ new Tran[Integer, Array[Byte]] {
override def from(to: Array[Byte]): Integer = {
val num = Bytes.toString(to)
if (num == null) null else new Integer(num)
} override def to(from: Integer): Array[Byte] = Bytes.toBytes(from.toString)
}
case "int#b" ⇒ PrimitiveByteTrans.getTran(classOf[java.lang.Integer])
}
} private def getScan(startRow: String, endRow: String): Scan = {
val scan = new Scan()
scan.setStartRow(Bytes.toBytes(startRow))
scan.setStopRow(Bytes.toBytes(endRow))
scan
}
}

mygithub

spark sql读hbase的更多相关文章

  1. Spark SQL 读到的记录数与 hive 读到的不一致

    问题:我用 sqoop 把 Mysql 中的数据导入到 hive,使用了--delete-target-dir --hive-import --hive-overwrite 等参数,执行了两次. my ...

  2. Spark SQL读parquet文件及保存

    import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.{Row, SparkSession} im ...

  3. 新闻网大数据实时分析可视化系统项目——18、Spark SQL快速离线数据分析

    1.Spark SQL概述 1)Spark SQL是Spark核心功能的一部分,是在2014年4月份Spark1.0版本时发布的. 2)Spark SQL可以直接运行SQL或者HiveQL语句 3)B ...

  4. Spark读HBase写MySQL

    1 Spark读HBase Spark读HBase黑名单数据,过滤出当日新增userid,并与mysql黑名单表内userid去重后,写入mysql. def main(args: Array[Str ...

  5. IDEA中Spark读Hbase中的数据

    import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.io.ImmutableBytesWr ...

  6. IDEA中 Spark 读Hbase 报错处理:

    SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] // :: ERROR RecoverableZooKeepe ...

  7. 使用 Spark SQL 高效地读写 HBase

    Apache Spark 和 Apache HBase 是两个使用比较广泛的大数据组件.很多场景需要使用 Spark 分析/查询 HBase 中的数据,而目前 Spark 内置是支持很多数据源的,其中 ...

  8. Spark 读 Hbase

    package com.grady import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.c ...

  9. Spark SQL External Data Sources JDBC官方实现读测试

    在最新的master分支上官方提供了Spark JDBC外部数据源的实现,先尝为快. 通过spark-shell测试: import org.apache.spark.sql.SQLContext v ...

随机推荐

  1. 【工具】Github

    项目目录结构设计与git远程仓库的建立 git码云仓库建立:在码云网站上新建组织和项目. 配置sshkey认证和公钥:命令行ssh-keygen -t rsa -C "xxxxx@xxxxx ...

  2. PAT甲级考前整理(2019年3月备考)之二,持续更新中.....

    PAT甲级考前整理之一网址:https://www.cnblogs.com/jlyg/p/7525244.html,主要总结了前面131题的类型以及易错题及坑点. PAT甲级考前整理三网址:https ...

  3. 【译】x86程序员手册23-6.5组合页与段保护

    6.5 Combining Page and Segment Protection 组合页与段保护 When paging is enabled, the 80386 first evaluates ...

  4. Stanford coursera Andrew Ng 机器学习课程第四周总结(附Exercise 3)

    Introduction Neural NetWork的由来 时,我们可以对它进行处理,分类.但是当特征数增长为时,分类器的效率就会很低了. Neural NetWork模型 该图是最简单的神经网络, ...

  5. Codeforces_768_B_(二分)

    B. Code For 1 time limit per test 2 seconds memory limit per test 256 megabytes input standard input ...

  6. redis的安装和使用【2】redis的java操作

    修改redis.conf# 配置绑定ip,作者机子为192.168.100.192,请读者根据实际情况设置bind 192.168.100.192#非保护模式protected-mode no保存重启 ...

  7. vue组件---组件注册

    (1)组件名 在注册一个组件的时候,我们始终需要给它一个名字.比如在全局注册的时候我们已经看到了: Vue.component('my-component-name', { /* ... */ }) ...

  8. 爬虫之BeautifulSoup库

    文档:https://beautifulsoup.readthedocs.io/zh_CN/latest/ 一.开始 解析库 # 安装解析库 pip3 install lxml pip3 instal ...

  9. 记VS2008安装及使用及卸载的艰辛历程!!!(2018/11/6-2018/11/14)

    此文为了纪念我对VS2008“孜孜不倦的”无数次的安装及卸载,以及解决使用过程中出现的问题所花费的人力物力和财力!成功之后再作补充.

  10. 热词解析(9) — hangry

    今天给大家介绍一个非常有趣.又超级实用的词!!中文叫"饿极而怒",英文叫... 不知道你有没有这样的经历,当你饿着肚子等着你妈做饭,结果你妈却在麻将桌上不下来,你就越来越饿,越饿越 ...