项目背景

spark sql读hbase据说官网如今在写，但还没稳定，所以我基于hbase-rdd这个项目进行了一个封装，当中会区分是否为2进制，假设是就在配置文件里指定为#b,如long#b,还实用了个公司封装的Byte转其它类型，这个假设别人用须要自己实现一套方案。假设我们完毕这一步，将会得到一个DataFrame，后面就能够registerTmpTable，正常使用了使用hiveContext，是由于有一定的orc文件。我这套方案是兼容hbase和hfile的。比方：

val conf = new SparkConf

implicit val sc = new SparkContext(conf)

implicit val hiveContext = new HiveContext(sc)

HbaseMappingUtil.getHbaseDataFrame(tableName,startRow,stopRow).registerTempTable(tableName)

hiveContext.sql("select * from tableName limit 1").show()

配置文件

配置文件：

hbase {

  mapping {

    table {

      usertriat {

        name = "hb_user_trait_7days"

        columnfamily = "stat"

        columns = ["p_du", "p_counts", "p_period_dist"]

            schemas = ["String", "int","string"]

        nullable = [true,false,true]

      }

      toddtest {

        name = "todd_test"

        columnfamily = "cf1"

        columns = ["name", "age"]

        schemas = ["String", "int"]

        nullable = [true, true]

      }

      user {

        name = "hb_user"

        columnfamily = "user"

        columns = ["modifiedTime", "nickname", "isThirdparty"]

        schemas = ["long#b", "string", "boolean"]

        nullable = [true, true, true]

      }

    }

  }

}

就是须要配置一些比方columnfamily。column，是否为空，一定要配，相当于自定格式的一个配置

核心代码

核心代码：

import scala.language._

import unicredit.spark.hbase._

import net.ceedubs.ficus.Ficus._

import org.apache.spark.sql.types._

import org.apache.spark.SparkContext

import com.typesafe.config.ConfigFactory

import org.apache.hadoop.hbase.client.Scan

import org.apache.spark.sql.hive.HiveContext

import org.apache.spark.sql.{DataFrame, Row}

import com.ximalaya.tran.{Bytes, PrimitiveByteTrans, Tran}

import java.lang.{Boolean ⇒ JBoolean, Double ⇒ JDouble, Float ⇒ JFloat, Long ⇒ JLong}

/**

  * Created by todd.chen on 16/3/28.

  * email : todd.chen@ximalaya.com

  */

object HbaseMappingUtil {

  lazy val config = ConfigFactory.load()

  def getHbaseDataFrame(table: String)(implicit @transient hiveContext: HiveContext,

                                       @transient sc: SparkContext): DataFrame = {

    getHbaseDataFrame(table, None, None)

  }

  def getHbaseDataFrame(table: String, startRow: Option[String], endRow: Option[String])

                       (implicit @transient hiveContext: HiveContext,

                        @transient sc: SparkContext): DataFrame = {

    lazy val hbasePrefix = s"hbase.mapping.table.$table"

    implicit val hbaseConfig = HBaseConfig()

    implicit def string2Integer(str: String): Integer = new Integer(str)

    val tableName = config.as[String](s"$hbasePrefix.name")

    val columnFamily = config.as[String](s"$hbasePrefix.columnfamily")

    val _columns = config.as[Set[String]](s"$hbasePrefix.columns")

    val _names = _columns.toSeq

    val _schemas = config.as[Seq[String]](s"$hbasePrefix.schemas")

    val _nullAbles = config.as[Seq[Boolean]](s"$hbasePrefix.nullable")

    implicit val columnsZipSchema: Map[String, Tran[_ <: AnyRef, Array[Byte]]] = schemaUtil(table)

    val columns = Map(columnFamily → _columns)

    val rddSchema = StructType(Seq(StructField("id", StringType, false)) ++ createSchema(_names, _schemas, _nullAbles))

    val scan = if (startRow.isDefined && endRow.isDefined) Some(getScan(startRow.get, endRow.get)) else None

    def row2Row(row: (String, Map[String, Map[String, Array[Byte]]])) = {

      val cf = row._2(columnFamily)

      val values = Seq(row._1) ++ _names.map(name ⇒ {

        val bytesArray = cf.getOrElse(name, null)

        arrayByte2Object(bytesArray, name)

      })

      Row(values: _*)

    }

    val rowRdd = if (scan.isDefined) {

      sc.hbase[Array[Byte]](tableName, columns, scan.get).map(row2Row

      )

    } else {

      sc.hbase[Array[Byte]](tableName, columns).map(row2Row)

    }

    hiveContext.createDataFrame(rowRdd, rddSchema)

  }

  private def createSchema(names: Seq[String], schemas: Seq[String], nullAbles: Seq[Boolean]): Seq[StructField] = {

    (names, schemas, nullAbles).zipped.map {

      case (name, schema, isnull) ⇒ (name, schema, isnull)

    }.map(string2StructField)

  }

  private def string2StructField(nameAndStyle: (String, String, Boolean)): StructField = {

    val (name, schema, nullAble) = nameAndStyle

    schema.toLowerCase match {

      case "string" ⇒ StructField(name, StringType, nullAble)

      case "double" ⇒ StructField(name, DoubleType, nullAble)

      case "int" | "int#b" ⇒ StructField(name, IntegerType, nullAble)

      case "long" | "long#b" ⇒ StructField(name, LongType, nullAble)

      case "boolean" ⇒ StructField(name, BooleanType, nullAble)

      case "float" ⇒ StructField(name, FloatType, nullAble)

      case "timestamp" ⇒ StructField(name, TimestampType, nullAble)

      case "date" ⇒ StructField(name, DateType, nullAble)

    }

  }

  private def arrayByte2Object(arrayBytes: Array[Byte], column: String)

                              (implicit columnsZipTran: Map[String, Tran[_ <: AnyRef, Array[Byte]]]) = {

    val tran = columnsZipTran.get(column).get

    tran.from(arrayBytes)

  }

  private def schemaUtil(tableName: String) = {

    lazy val hbasePrefix = s"hbase.mapping.table.$tableName"

    val _columns = config.as[Seq[String]](s"$hbasePrefix.columns")

    val _schemas = config.as[Seq[String]](s"$hbasePrefix.schemas")

    column2Tran(_columns.zip(_schemas))

  }

  private def column2Tran(columnZipSchema: Seq[(String, String)]) = {

    var columnZipTran = Map.empty[String, Tran[_ <: AnyRef, Array[Byte]]]

    columnZipSchema.foreach { cs ⇒

      val (column, schema) = cs

      columnZipTran += column → schema2Tran(schema)

    }

    columnZipTran

  }

  private def schema2Tran(schema: String): Tran[_ <: AnyRef, Array[Byte]] = {

    schema.toLowerCase match {

      case "string" ⇒ PrimitiveByteTrans.getTran(classOf[String])

      case "boolean" ⇒ PrimitiveByteTrans.getTran(classOf[JBoolean])

      case "double" ⇒ PrimitiveByteTrans.getTran(classOf[JDouble])

      case "float" ⇒ PrimitiveByteTrans.getTran(classOf[JFloat])

      case "long" ⇒ new Tran[JLong, Array[Byte]] {

        override def from(to: Array[Byte]): JLong = {

          val num = Bytes.toString(to)

          if (num == null) null else new JLong(num)

        }

        override def to(from: JLong): Array[Byte] = Bytes.toBytes(from.toString)

      }

      case "long#b" ⇒ PrimitiveByteTrans.getTran(classOf[JLong])

      case "int" ⇒ new Tran[Integer, Array[Byte]] {

        override def from(to: Array[Byte]): Integer = {

          val num = Bytes.toString(to)

          if (num == null) null else new Integer(num)

        }

        override def to(from: Integer): Array[Byte] = Bytes.toBytes(from.toString)

      }

      case "int#b" ⇒ PrimitiveByteTrans.getTran(classOf[java.lang.Integer])

    }

  }

  private def getScan(startRow: String, endRow: String): Scan = {

    val scan = new Scan()

    scan.setStartRow(Bytes.toBytes(startRow))

    scan.setStopRow(Bytes.toBytes(endRow))

    scan

  }

}

mygithub

spark sql读hbase的更多相关文章

Spark SQL 读到的记录数与 hive 读到的不一致
问题:我用 sqoop 把 Mysql 中的数据导入到 hive,使用了--delete-target-dir --hive-import --hive-overwrite 等参数,执行了两次. my ...
Spark SQL读parquet文件及保存
import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.{Row, SparkSession} im ...
新闻网大数据实时分析可视化系统项目——18、Spark SQL快速离线数据分析
1.Spark SQL概述 1)Spark SQL是Spark核心功能的一部分,是在2014年4月份Spark1.0版本时发布的. 2)Spark SQL可以直接运行SQL或者HiveQL语句 3)B ...
Spark读HBase写MySQL
1 Spark读HBase Spark读HBase黑名单数据,过滤出当日新增userid,并与mysql黑名单表内userid去重后,写入mysql. def main(args: Array[Str ...
IDEA中Spark读Hbase中的数据
import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.io.ImmutableBytesWr ...
IDEA中 Spark 读Hbase 报错处理：
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] // :: ERROR RecoverableZooKeepe ...
使用 Spark SQL 高效地读写 HBase
Apache Spark 和 Apache HBase 是两个使用比较广泛的大数据组件.很多场景需要使用 Spark 分析/查询 HBase 中的数据,而目前 Spark 内置是支持很多数据源的,其中 ...
Spark 读 Hbase
package com.grady import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.c ...
Spark SQL External Data Sources JDBC官方实现读测试
在最新的master分支上官方提供了Spark JDBC外部数据源的实现,先尝为快. 通过spark-shell测试: import org.apache.spark.sql.SQLContext v ...

随机推荐

漫谈未来的HDFS
前面我们提到的HDFS,了解了HDFS的特性和架构.HDFS能够存储TB甚至PB规模的数据是有前提的,首先数据要以大文件为主,其次NameNode的内存要足够大.对HDFS有所了解的同学肯定都知道,N ...
CF814C An impassioned circulation of affection
思路: 对于题目中的一个查询(m, c),枚举子区间[l, r](0 <= l <= r < n),若该区间满足其中的非c字符个数x不超过m,则可以将其合法转换为一个长度为r-l+1 ...
linux创建ftp用户以及指定目录问题
linux创建ftp用户以及指定目录问题创建用户命令:如我的目录是根目录下的 MyWeb 用户名:xdh2571 #useradd -G ftp -d /MyWeb -M xdh2571#passw ...
Java&Xml教程（八）使用JDOM将Java对象转换为XML
在前面的教程中我们学习了如何使用JDOM解析和修改XML文件内容,本节介绍如何将Java对象转换为XML数据并生成文件. JDOM的Document类提供了便捷的方法创建元素和属性,XMLOutput ...
Linux系统命令及文件的浏览、管理和维护
在linux中什么是一个文件的路径呢,说白了就是这个文件存在的地方,例如在上一章提到的/root/.ssh/authorized_keys 这就是一个文件的路径.如果你告诉系统这个文件的路径,那么系统 ...
HDU_6017_Girls love 233_(dp)(记忆化搜索)
Girls Love 233 Accepts: 30 Submissions: 218 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: ...
java_IO_2
1.字节流 InputStream(抽象类) package ioStudy; import java.io.File; import java.io.FileInputStream; import ...
ansible结合playbook批量部署war包项目上线
批量部署jenkins.war包实现上线用于测试war包上线 [root~localhost]~#vim /etc/ansible/test.yml - hosts: test vars: ...
document.write() 和 document.writeln区别
document.write() 和 document.writeln 都是JavaScript向客户端写入的方法,writeln是以行方式输出的,但并不是指页面实际效果中的换行,两种方法在查看源代码 ...
ios8 UITableView设置 setSeparatorInset:UIEdgeInsetsZero不起作用的解决办法（去掉15px空白间距）
但是在ios8中,设置setSeparatorInset:UIEdgeInsetsZero 已经不起作用了.下面是解决办法: 首先在viewDidLoad方法加入以下代码: if(leftTable! ...

spark sql读hbase

项目背景

配置文件

核心代码

spark sql读hbase的更多相关文章

随机推荐

热门专题