Spark读写HBase

Spark读写HBase示例

1、HBase shell查看表结构

hbase(main)::> desc 'SDAS_Person'

Table SDAS_Person is ENABLED

SDAS_Person

COLUMN FAMILIES DESCRIPTION

{NAME => 'cf0', BLOOMFILTER => 'ROW', VERSIONS => '', IN_MEMORY => 'false', KEEP_DELETED_CELLS => 'FALSE',

 DATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', COMPRESSION => 'NONE', MIN_VERSIONS => '', BLOCKCACHE =>

 'true', BLOCKSIZE => '', REPLICATION_SCOPE => ''}

{NAME => 'cf1', BLOOMFILTER => 'ROW', VERSIONS => '', IN_MEMORY => 'false', KEEP_DELETED_CELLS => 'FALSE',

 DATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', COMPRESSION => 'NONE', MIN_VERSIONS => '', BLOCKCACHE =>

 'true', BLOCKSIZE => '', REPLICATION_SCOPE => ''}

{NAME => 'cf2', BLOOMFILTER => 'ROW', VERSIONS => '', IN_MEMORY => 'false', KEEP_DELETED_CELLS => 'FALSE',

 DATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', COMPRESSION => 'NONE', MIN_VERSIONS => '', BLOCKCACHE =>

 'true', BLOCKSIZE => '', REPLICATION_SCOPE => ''}

 row(s) in 0.0810 seconds

hbase(main)::> desc 'RESULT'

Table RESULT is ENABLED

RESULT

COLUMN FAMILIES DESCRIPTION

{NAME => 'cf0', BLOOMFILTER => 'ROW', VERSIONS => '', IN_MEMORY => 'false', KEEP_DELETED_CELLS => 'FALSE',

DATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', COMPRESSION => 'NONE', MIN_VERSIONS => '', BLOCKCACHE =>

'true', BLOCKSIZE => '', REPLICATION_SCOPE => ''}

 row(s) in 0.0250 seconds

2、HBase shell插入数据

hbase(main)::> scan 'SDAS_Person'

ROW                         COLUMN+CELL

 SDAS_1#                   column=cf0:Age, timestamp=, value=

 SDAS_1#                   column=cf0:CompanyID, timestamp=, value=

 SDAS_1#                   column=cf0:InDate, timestamp=, value=-- ::08.49

 SDAS_1#                   column=cf0:Money, timestamp=, value=5.20

 SDAS_1#                   column=cf0:Name, timestamp=, value=zhangsan

 SDAS_1#                   column=cf0:PersonID, timestamp=, value=

3、pom.xml：

    <dependency>

      <groupId>org.scala-lang</groupId>

      <artifactId>scala-library</artifactId>

      <version>${scala.version}</version>

    </dependency>

    <dependency>

      <groupId>org.apache.spark</groupId>

      <artifactId>spark-core_${scala.binary.version}</artifactId>

      <version>${spark.version}</version>

      <scope>provided</scope>

    </dependency>

4、源码：

package com.zxth.sdas.spark.apps

import org.apache.spark._

import org.apache.spark.rdd.NewHadoopRDD

import org.apache.hadoop.hbase.{HBaseConfiguration, HTableDescriptor}

import org.apache.hadoop.hbase.client.HBaseAdmin

import org.apache.hadoop.hbase.mapreduce.TableInputFormat

import org.apache.hadoop.hbase.util.Bytes

import org.apache.hadoop.hbase.client.Put

import org.apache.hadoop.hbase.io.ImmutableBytesWritable

import org.apache.hadoop.mapreduce.Job

import org.apache.hadoop.hbase.client.Result

import org.apache.hadoop.hbase.mapreduce.TableOutputFormat

object HBaseOp {

  var total:Int = 0

  def main(args: Array[String]) {

    val sparkConf = new SparkConf().setAppName("HBaseOp").setMaster("local")

    val sc = new SparkContext(sparkConf)

    val conf = HBaseConfiguration.create()

    conf.set("hbase.zookeeper.quorum","master,slave1,slave2")

    conf.set("hbase.zookeeper.property.clientPort", "2181")

    conf.set(TableInputFormat.INPUT_TABLE, "SDAS_Person")

    //读取数据并转化成rdd

    val hBaseRDD = sc.newAPIHadoopRDD(conf, classOf[TableInputFormat],

      classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],

      classOf[org.apache.hadoop.hbase.client.Result])  

    val count = hBaseRDD.count()

    println("\n\n\n:" + count)

    hBaseRDD.foreach{case (_,result) =>{

      //获取行键

      val key = Bytes.toString(result.getRow)

      //通过列族和列名获取列

      var obj = result.getValue("cf0".getBytes,"Name".getBytes)

      val name = if(obj==null) "" else Bytes.toString(obj)

      obj = result.getValue("cf0".getBytes,"Age".getBytes);

      val age:Int = if(obj == null) 0 else Bytes.toString(obj).toInt

      total = total + age

      println("Row key:"+key+" Name:"+name+" Age:"+age+" total:"+total)

    }}

    var average:Double = total.toDouble/count.toDouble

    println("" + total + "/" + count + " average age:" + average.toString())

    //write hbase

    conf.set(TableOutputFormat.OUTPUT_TABLE, "RESULT")

    val job = new Job(conf)

    job.setOutputKeyClass(classOf[ImmutableBytesWritable])

    job.setOutputValueClass(classOf[Result])

    job.setOutputFormatClass(classOf[TableOutputFormat[ImmutableBytesWritable]])

    var arrResult:Array[String] = new Array[String](1)

    arrResult(0) = "1," + total + "," + average;

    //arrResult(0) = "1,100,11"

    val resultRDD = sc.makeRDD(arrResult)

    val saveRDD = resultRDD.map(_.split(',')).map{arr=>{

      val put = new Put(Bytes.toBytes(arr(0)))

      put.add(Bytes.toBytes("cf0"),Bytes.toBytes("total"),Bytes.toBytes(arr(1)))

      put.add(Bytes.toBytes("cf0"),Bytes.toBytes("average"),Bytes.toBytes(arr(2)))

      (new ImmutableBytesWritable, put)

    }}

    println("getConfiguration")

    var c = job.getConfiguration()

    println("save")

    saveRDD.saveAsNewAPIHadoopDataset(c)  

    sc.stop()

  }

}

5、maven打包

mvn clean scala:compile compile package

6、提交运算

bin/spark-submit \

--jars $(echo /opt/hbase-1.2./lib/*.jar | tr ' ' ',') \

--class com.zxth.sdas.spark.apps.HBaseOp \

--master local \

sdas-spark-1.0.0.jar

Spark读写HBase的更多相关文章

Spark读写Hbase的二种方式对比
作者:Syn良子出处:http://www.cnblogs.com/cssdongl 转载请注明出处一.传统方式这种方式就是常用的TableInputFormat和TableOutputForm ...
spark读写hbase性能对比
一.spark写入hbase hbase client以put方式封装数据,并支持逐条或批量插入.spark中内置saveAsHadoopDataset和saveAsNewAPIHadoopDatas ...
Spark读写HBase时出现的问题--RpcRetryingCaller: Call exception
问题描述 Exception in thread "main" org.apache.hadoop.hbase.client.RetriesExhaustedException: ...
Spark读写Hbase中的数据
def main(args: Array[String]) { val sparkConf = new SparkConf().setMaster("local").setAppN ...
Spark-读写HBase，SparkStreaming操作，Spark的HBase相关操作
Spark-读写HBase,SparkStreaming操作,Spark的HBase相关操作 1.sparkstreaming实时写入Hbase(saveAsNewAPIHadoopDataset方法 ...
Spark实战之读写HBase
1 配置 1.1 开发环境: HBase:hbase-1.0.0-cdh5.4.5.tar.gz Hadoop:hadoop-2.6.0-cdh5.4.5.tar.gz ZooKeeper:zooke ...
使用 Spark SQL 高效地读写 HBase
Apache Spark 和 Apache HBase 是两个使用比较广泛的大数据组件.很多场景需要使用 Spark 分析/查询 HBase 中的数据,而目前 Spark 内置是支持很多数据源的,其中 ...
Spark读Hbase优化 --手动划分region提高并行数
一. Hbase的region 我们先简单介绍下Hbase的架构和Hbase的region: 从物理集群的角度看,Hbase集群中,由一个Hmaster管理多个HRegionServer,其中每个HR ...
开源大数据技术专场（上午）:Spark、HBase、JStorm应用与实践
16日上午9点,2016云栖大会“开源大数据技术专场” (全天)在阿里云技术专家封神的主持下开启.通过封神了解到,在上午的专场中,阿里云高级技术专家无谓.阿里云技术专家封神.阿里巴巴中间件技术部高级技 ...

随机推荐

非常不错的svg教程
介绍的非常详细,也很有调理,内容很详细适合于初学者学习 http://www.softwhy.com/qiduan/SVG_source/
CentOS7 安装 MySQL8.0
[1]安装步骤过程 (1)yum仓库下载MySQL 命令:yum localinstall https://repo.mysql.com//mysql80-community-release-el7- ...
Java8分组(groupingBy)
1.分组,计数,排序 public class Java8Example1 { public static void main(String[] args) { List<String> ...
创建局域网yum服务器
首先需要安装createrepo这个软件包,使用yum安装即可创建软件库文件夹,比如mkdir -p /var/www/html/myrepo/x86_64, 将软件包拷贝到文件夹下. cd到该文件 ...
深入理解泛型之JAVA泛型的继承和实现、泛型擦除
很多的基础类设计会采用泛型模式,有些应用在使用的时候处于隔离考虑,会进行继承,此时子类如何继承泛型类就很讲究了,有些情况下需要类型擦除,有些情况下不需要类型擦除,但是大多数情况下,我们需要的是保留父类 ...
【题解】Luogu P3674 小清新人渣的本愿
原题传送门这题还算简单(我记得我刚学oi时就来写这题,然后暴力都爆零了) 看见无修改,那么这题应该是莫队维护两个bitset,第二个是第一个的反串,bitset内维护每个数字是否出现过第一种操作 ...
1.求链表中的倒数第K个节点
注意事项:1.要是K大于链表长度怎么办? 2.k<=0怎么办? ListNode* FindR_Kth(ListNode* p_head, unsigned int k) 2 {//找到链表的倒 ...
利用matplotlib库和numpy库画数学图形
首先,电脑要安装到matplotlib库和numpy库,这可以通过到命令符那里输入“pip install matplotlib ”,两个操作一样其次,参照下列代码: import numpy as ...
Tomcat &servlet字符集编码问题
1.字符编码的原由 1.1 request和response的默认编码是? 如果未指定字符编码,则Servlet规范要求使用ISO-8859-1的编码. HTTP消息正文(请求或响应)的字符编码在Co ...
The application to execute does not exist: 'C:\Users\Administrator\.dotnet\tools\.store\dotnet-aspnet-codegenerator\2.2.0-rtm-35687\dotnet-aspnet-codegenerator\2.2.0-rtm-35687\tools\netcoreapp2.1\any\
vs code mvc搭建基架执行命令操作出现的问题解决方式重新复制拷贝一份2.2.0命名为2.2.0-rtm-35687, 修改

Spark读写HBase

Spark读写HBase的更多相关文章

随机推荐

热门专题