当spark遇见hbase

一、使用sbt引入hbase依赖包

"org.apache.hbase" % "hbase-server" % "2.1.0",

"org.apache.hbase" % "hbase-common" % "2.1.0",

"org.apache.hbase" % "hbase-client" % "2.1.0",

"org.apache.hbase" % "hbase-mapreduce" % "2.1.0",

"org.apache.hbase" % "hbase" % "2.1.0" ,

二、检查hbase中是否存在某表

import org.apache.hadoop.hbase.HColumnDescriptor;

import org.apache.hadoop.hbase.HTableDescriptor;

import org.apache.hadoop.hbase.TableName;

import org.apache.hadoop.hbase.client.Admin;

import org.apache.hadoop.hbase.client.Connection;

import org.apache.hadoop.hbase.client.ConnectionFactory;

import org.apache.hadoop.hbase.io.compress.Compression.Algorithm;

import org.apache.hadoop.conf.Configuration;

import java.io.IOException;

/**

 * 检查表是否存在，存在就删掉重新建立

 * @author gy

 */

public class TableTest {

    private static void creatOrOverwrite(Admin admin, HTableDescriptor table) throws IOException {

        if (admin.tableExists(table.getTableName())) {

            admin.disableTable(table.getTableName());

            admin.deleteTable(table.getTableName());

        }

        admin.createTable(table);

    }

    public static void createSchemaTables(Configuration config,String tablename,String colname,String ip) throws Exception {

        config.set("hbase.zookeeper.quorum", ip);

        try (Connection connection = ConnectionFactory.createConnection(config);

             Admin admin = connection.getAdmin()) {

            HTableDescriptor table = new HTableDescriptor(TableName.valueOf(tablename));

            table.addFamily(new HColumnDescriptor(colname).setCompressionType(Algorithm.NONE));

            System.out.println("Create table "+tablename);

            creatOrOverwrite(admin, table);

            System.out.println(" Done.");

        }

    }

}

三、将dataframe写入hbase

import org.apache.hadoop.hbase.HBaseConfiguration

import org.apache.hadoop.hbase.client.Put

import org.apache.hadoop.hbase.io.ImmutableBytesWritable

import org.apache.hadoop.hbase.mapred.TableOutputFormat

import org.apache.hadoop.hbase.util.Bytes

import org.apache.hadoop.mapred.JobConf

import org.apache.spark.sql.DataFrame

import org.apache.spark.rdd.RDD

object Write2Hbase {

  def webAdd(da: DataFrame, colname: String): RDD[(ImmutableBytesWritable, Put)] = {

    da.rdd.map(x => {

      val row = x.getString(2) +"-"+(Long.MaxValue - x.getTimestamp(1).getTime)

      var userid=""

      if(!x.isNullAt(2)){

        userid=x.getString(2)

      }

      var put = new Put(Bytes.toBytes(row))

      put.addColumn(Bytes.toBytes(colname), Bytes.toBytes("hyid"), Bytes.toBytes(x.getInt(0)))

         .addColumn(Bytes.toBytes(colname), Bytes.toBytes("time"), Bytes.toBytes(x.getTimestamp(1).toString)))
　　　　　 .addColumn(Bytes.toBytes(colname), Bytes.toBytes("ip"), Bytes.toBytes(x.getString(10)))

      (new ImmutableBytesWritable, put)

    })

  }

  def data2hbase(data: DataFrame, ip: String, tablename: String): Unit = {

    var colname = "web"

    val conf = HBaseConfiguration.create()

    import TableTest.createSchemaTables

    val jobConf = new JobConf(conf)

    jobConf.set("hbase.zookeeper.quorum", ip)

    jobConf.set("hbase.zookeeper.property.clientPort", "2181")

    jobConf.set(TableOutputFormat.OUTPUT_TABLE, tablename)

    jobConf.setOutputFormat(classOf[TableOutputFormat])

    var saveData: RDD[(ImmutableBytesWritable, Put)] = webAdd(data, colname)

    createSchemaTables(conf, tablename, colname, ip)

    saveData.saveAsHadoopDataset(jobConf)

  }

}

当spark遇见hbase的更多相关文章

MapReduce和Spark写入Hbase多表总结
作者:Syn良子出处:http://www.cnblogs.com/cssdongl 转载请注明出处大家都知道用mapreduce或者spark写入已知的hbase中的表时,直接在mapreduc ...
spark 操作hbase
HBase经过七年发展,终于在今年2月底,发布了 1.0.0 版本.这个版本提供了一些让人激动的功能,并且,在不牺牲稳定性的前提下,引入了新的API.虽然 1.0.0 兼容旧版本的 API,不过还是应 ...
Spark操作hbase
于Spark它是一个计算框架,于Spark环境,不仅支持单个文件操作,HDFS档,同时也可以使用Spark对Hbase操作. 从企业的数据源HBase取出.这涉及阅读hbase数据,在本文中尽快为了尽 ...
大数据学习系列之九---- Hive整合Spark和HBase以及相关测试
前言在之前的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建中介绍了集群的环境搭建,但是在使用hive进行数据查询的时候会非常的慢,因为h ...
Spark读Hbase优化 --手动划分region提高并行数
一. Hbase的region 我们先简单介绍下Hbase的架构和Hbase的region: 从物理集群的角度看,Hbase集群中,由一个Hmaster管理多个HRegionServer,其中每个HR ...
spark读写hbase性能对比
一.spark写入hbase hbase client以put方式封装数据,并支持逐条或批量插入.spark中内置saveAsHadoopDataset和saveAsNewAPIHadoopDatas ...
Spark读写HBase
Spark读写HBase示例 1.HBase shell查看表结构 hbase(main)::> desc 'SDAS_Person' Table SDAS_Person is ENABLED ...
Spark读HBase写MySQL
1 Spark读HBase Spark读HBase黑名单数据,过滤出当日新增userid,并与mysql黑名单表内userid去重后,写入mysql. def main(args: Array[Str ...
Spark整合HBase,Hive
背景: 场景需求1:使用spark直接读取HBASE表场景需求2:使用spark直接读取HIVE表场景需求3:使用spark读取HBASE在Hive的外表摘要: 1.背景 2.提交脚本内容场 ...

随机推荐

HTML 排版标记
<p></p> : 表示一个段落常用属性 : align : 水平对齐方式取值 :left center right 和Word文档一样 : 段落有空行 <br ...
<每日一题>题目8：文件备份V1.0
import os #备份文件的路径 file_address = input("输入需要备份文件所在的路径:") os.chdir(file_address) #备份文件命名 f ...
Referenced assembly does not have a strong name
Step 1 : Run visual studio command prompt and go to directory where your DLL located. For Example my ...
ES6之主要知识点(五）函数
函数参数的默认值作用域 ; function f(x, y = x) { console.log(y); } f() let x = ; function f(y = x) { let x = ; ...
从GoogLeNet至Inception v3
从GoogLeNet至Inception v3 一.CNN发展纵览我们先来看一张图片: 1985年,Rumelhart和Hinton等人提出了后向传播(Back Propagation,BP)算法( ...
spring_配置处理器对象、处理器映射器、处理器适配器、视图解析器
创建spring配置文件:application-context.xml. 创建处理器类 package com.lanou.demo.controller;public class BookCont ...
HZOI20190821模拟28题解
题面:https://www.cnblogs.com/Juve/articles/11390839.html 所有官方正解在我的文件里 A. 虎算法1:我们发现非关键边与黑色边去掉以后,答案就是将所 ...
xcode下的DerivedData
在模拟器运行的情况下经常会出现以下的错误: error: remove /Users/mac/Library/Developer/Xcode/DerivedData/YuQing-amkrrucjrn ...
Spring AOP(一)--基本概念
AOP(Aspect Oriented Programing),意为面向切面编程,其实看了很多书本的介绍和说明,我觉得这些解释都太过书面,也可能是翻译的原因,总觉得还是不太懂,也难以理解这种叫法,尤其 ...
WhaleCTF之web密码泄露
WhaleCTF之密码泄露前往题目没有思路,习惯看一下源码,拉到最后,发现有惊喜直接把index.php 换成password.txt,访问这是要让我密码爆破吗?直接把密码保存成passwor ...

当spark遇见hbase

当spark遇见hbase的更多相关文章

随机推荐

热门专题