sparkonhbase

import org.apache.hadoop.hbase.HBaseConfiguration

import org.apache.hadoop.hbase.client.Result

import org.apache.hadoop.hbase.io.ImmutableBytesWritable

import org.apache.hadoop.hbase.mapreduce.TableInputFormat

import org.apache.hadoop.hbase.spark.HBaseContext

import org.apache.hadoop.hbase.util.Bytes

import org.apache.spark.rdd.RDD

import org.apache.spark.sql.SparkSession

import org.apache.hadoop.hbase.NamespaceDescriptor

import org.apache.hadoop.hbase.TableName

import org.apache.hadoop.hbase.client._

import org.apache.hadoop.hbase.filter._

import org.apache.hadoop.hbase.io.compress.Compression

import org.apache.hadoop.hbase.util.Bytes

/**

  * Created by lq on 2017/9/7.

  */

object spark2habse {

}

object Sparkonhbase {

  val spark=SparkSession.builder().appName("").master("").getOrCreate()

  val sc=spark.sparkContext

  val conf= HBaseConfiguration.create()

  val habsecontext=new HBaseContext(sc,conf)

  def scanHbaseTB(tableName:String)(implicit startKey:Option[String],endKey:Option[String]):RDD[(ImmutableBytesWritable,Result)]={

    //如果有StartRowKey根据提供查询

    startKey match {

      case Some(x)=>{

        val scan=new Scan()

        scan.setStartRow(Bytes.toBytes(x))

        scan.setStopRow(Bytes.toBytes(endKey.getOrElse(x)))

        val hbaeRDD=habsecontext.hbaseRDD(TableName.valueOf(tableName),scan)

        hbaeRDD

      }

      case None=>{

        val scan=new Scan()

        val hbaeRDD=habsecontext.hbaseRDD(TableName.valueOf(tableName),scan)

        hbaeRDD

      }

    }

    def main(args: Array[String]): Unit = {

      //传统方式

      conf.set(TableInputFormat.SCAN_ROW_START, "startrowkey")

      conf.set(TableInputFormat.SCAN_ROW_STOP, "stoprowkey")

      conf.set(TableInputFormat.INPUT_TABLE, "SparkHbase")

      val hBaseRDD = sc.newAPIHadoopRDD(conf, classOf[TableInputFormat], classOf[ImmutableBytesWritable], classOf[Result])

      //利用HbaseContext进行操作

      val SparkHbaseRDD=scanHbaseTB("SparkHbase")

      SparkHbaseRDD.foreach(x=>{

        val rowKey=x._1.toString

        val rs=x._2

        val cell=rs.getColumnLatestCell(Bytes.toBytes(""),Bytes.toBytes(""))

        println(s"the rowKey is $rowKey the values is $cell")

      })

    }

  }

}

http://blog.csdn.net/UnionIBM/article/details/77850979
<dependency>
            <groupId>org.apache.hbase</groupId>
            <artifactId>hbase-spark</artifactId>
            <version>2.0.0-alpha2<

ersion>
</dependency>
这个是spark2.0里面的,低版本的只有cdh的依赖.

sparkonhbase的更多相关文章

Spark读写Hbase的二种方式对比
作者:Syn良子出处:http://www.cnblogs.com/cssdongl 转载请注明出处一.传统方式这种方式就是常用的TableInputFormat和TableOutputForm ...
Spark-2.3.2 Java SparkSQL的自定义HBase数据源
由于SparkSQL不支持HBase的数据源(HBase-1.1.2),网上有很多是采用Hortonworks的SHC,而SparkSQL操作HBase自定义数据源大多数都是基于Scala实现,我就自 ...

随机推荐

Mac PATH你所需要了解的
关于Mac环境变量你需要知道: 0.何为环境变量? 1.如何查看环境变量? 2.如何配置环境变量? 3.如何重置环境变量? 0.环境变量: 所谓环境变量,$PATH,应用于Linux,OS X,Uni ...
/proc 目录详细说明
/proc路径详细: Linux 内核提供了一种通过 /proc 文件系统,在运行时访问内核内部数据结构.改变内核设置的机制.proc文件系统是一个伪文件系统,它只存在内存当中,而不占用外存空间.它以 ...
Java读取excel的示例
一.引用的jar包,apache的POI // https://mvnrepository.com/artifact/org.apache.poi/poi-ooxml compile group: ' ...
HighCharts实现多数据折线图分列显示
HighCharts实现多数据折线图分列显示 BY ZYZ HighCharts是一个很好用的web端绘图插件,用起来很方便,它的官方支持很好.并且有中文API(不全然).画出来的图像也挺美丽的. 近 ...
Java 8 Lambda排序 : Comparator example
1. Classic Comparator example. Comparator<Developer> byName = new Comparator<Developer>( ...
谈一谈python的垃圾回收机制
[python的垃圾回收机制是怎么实现的] 在C语言时代程序员要负责内存的申请和释放,虽然这样的程序可以对资源进行精细的控制.但是它也有它的问题.这就要求程序员要写许多与业务逻辑无关的内容在代码里面 ...
用Python3发送邮件详解
[整个邮件系统是怎样工作的] 邮件自互联网诞生之初就有了,它和web服务一样也是采用的c/s架构,比如我们常见的邮件客户端有outlook.foxmail这些邮件客户端软件. 当我们要发邮件时客户端就 ...
Android 性能优化总结
App 流畅运行,是用户体验的第一步.App 流程运行,涉及到性能优化,主要涉及到布局优化, 绘制优化,内存泄漏优化,响应速度优化,列表展示优化,Bitmap 优化,线程优化,包大小优化. 布局优化 ...
IOS开发----生成静态库（.a）
由于iPhone控件的极度匮乏和自定义组件在重用上的限制,在过去的项目中我们积累了大量的“纯代码”组件——因为IB本身的限制,我们无法把这些组件封装为IB组件库(本来我们想通过分发xib文件的方式重用 ...
nginx 404 403等错误信息页面重定向到网站首页或其它事先指定的页面
server { listen 80; server_name www.espressos.cn; location / { root html/www; index index.html index ...

sparkonhbase

sparkonhbase的更多相关文章

随机推荐

热门专题