Spark 读Hive并写入HBase

package com.grady

import org.apache.hadoop.hbase.HBaseConfiguration

import org.apache.hadoop.hbase.client.Put

import org.apache.hadoop.hbase.io.ImmutableBytesWritable

import org.apache.hadoop.hbase.mapred.TableOutputFormat

import org.apache.hadoop.hbase.util.Bytes

import org.apache.hadoop.mapred.JobConf

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.sql.SparkSession

object SparkHiveToHbase {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("sparkHiveToHbase")

    val spark: SparkSession = SparkSession.builder().config(conf).enableHiveSupport().getOrCreate()

    val sc = spark.sparkContext

    val rdd: RDD[Student] = readDataFromHive(spark)

    writeDataToHbase(rdd, sc)

    spark.stop()

  }

  def readDataFromHive(spark: SparkSession): RDD[Student] = {

    val dataFrame = spark.sql("select * from jiang.student")

    dataFrame.rdd.map(r =>

      Student(r(0).toString.toInt, r(1).toString, r(2).toString, r(3).toString.toInt, r(4).toString)

    )

  }

  def writeDataToHbase(rdd: RDD[Student], sc: SparkContext): Unit = {

    val tablename = "jiang:student"

    val hbaseConf = HBaseConfiguration.create()

    hbaseConf.set("hbase.zookeeper.quorum","10.82.232.64")

    hbaseConf.set("hbase.zookeeper.property.clientPort", "2181")

    hbaseConf.set("zookeeper.znode.parent", "/hbase")

    hbaseConf.set(TableOutputFormat.OUTPUT_TABLE, tablename)

    val jobConf = new JobConf(hbaseConf)

    jobConf.setOutputFormat(classOf[TableOutputFormat])

    val hbaseRDD = rdd.map(student => {

      val put = new Put(Bytes.toBytes("hive:" + student.id))

      put.addColumn(Bytes.toBytes("cf"), Bytes.toBytes("name"), Bytes.toBytes(student.name))

      put.addColumn(Bytes.toBytes("cf"), Bytes.toBytes("age"), Bytes.toBytes(student.age.toString))

      (new ImmutableBytesWritable, put)

    })

    hbaseRDD.saveAsHadoopDataset(jobConf)

  }

}

case class Student(id: Int, name: String, sex: String, age: Int, department: String)

执行： spark-submit --master local[2] --num-executors 10 --class com.grady.SparkHiveToHbase /app/data/appdeploy/usehive1-1.0-SNAPSHOT.jar

日志：

hbase(main):011:0> scan 'jiang:student'

ROW                          COLUMN+CELL

 1                           column=cf:age, timestamp=2022-02-08T16:27:01.290, value=15

 1                           column=cf:name, timestamp=2022-02-08T16:27:01.290, value=jack

 2                           column=cf:age, timestamp=2022-02-08T16:27:01.290, value=16

 2                           column=cf:name, timestamp=2022-02-08T16:27:01.290, value=Lily

 3                           column=cf:age, timestamp=2022-02-08T16:27:01.290, value=16

 3                           column=cf:name, timestamp=2022-02-08T16:27:01.290, value=mike

 hive:1                      column=cf:age, timestamp=2022-02-08T17:24:24.477, value=10

 hive:1                      column=cf:name, timestamp=2022-02-08T17:24:24.477, value=xiaojiang

 hive:2                      column=cf:age, timestamp=2022-02-08T17:24:24.477, value=10

 hive:2                      column=cf:name, timestamp=2022-02-08T17:24:24.477, value=xiaochen

Spark 读Hive并写入HBase的更多相关文章

Spark 读 Hive（不在一个 yarn 集群）
方法一 1. 找到目标 Hive 的 hive-site.xml 文件,拷贝到 spark 的 conf 下面. 在我的情况下 /etc/hive/conf/hive-site.xml -> / ...
spark踩坑——dataframe写入hbase连接异常
最近测试环境基于shc[https://github.com/hortonworks-spark/shc]的hbase-connector总是异常连接不到zookeeper,看下报错日志: 18/06 ...
大数据核心知识点：Hbase、Spark、Hive、MapReduce概念理解，特点及机制
今天,上海尚学堂大数据培训班毕业的一位学生去参加易普软件公司面试,应聘的职位是大数据开发.面试官问了他10个问题,主要集中在Hbase.Spark.Hive和MapReduce上,基础概念.特点.应用 ...
Spark读HBase写MySQL
1 Spark读HBase Spark读HBase黑名单数据,过滤出当日新增userid,并与mysql黑名单表内userid去重后,写入mysql. def main(args: Array[Str ...
Spark：DataFrame批量导入Hbase的两种方式(HFile、Hive)
Spark处理后的结果数据resultDataFrame可以有多种存储介质,比较常见是存储为文件.关系型数据库,非关系行数据库. 各种方式有各自的特点,对于海量数据而言,如果想要达到实时查询的目的,使 ...
大数据学习day34---spark14------1 redis的事务(pipeline)测试，2. 利用redis的pipeline实现数据统计的exactlyonce ，3 SparkStreaming中数据写入Hbase实现ExactlyOnce， 4.Spark StandAlone的执行模式，5 spark on yarn
1 redis的事务(pipeline)测试 Redis本身对数据进行操作,单条命令是原子性的,但事务不保证原子性,且没有回滚.事务中任何命令执行失败,其余的命令仍会被执行,将Redis的多个操作放到 ...
MapReduce和Spark写入Hbase多表总结
作者:Syn良子出处:http://www.cnblogs.com/cssdongl 转载请注明出处大家都知道用mapreduce或者spark写入已知的hbase中的表时,直接在mapreduc ...
Spark DataFrame写入HBase的常用方式
Spark是目前最流行的分布式计算框架,而HBase则是在HDFS之上的列式分布式存储引擎,基于Spark做离线或者实时计算,数据结果保存在HBase中是目前很流行的做法.例如用户画像.单品画像.推荐 ...
spark 将dataframe数据写入Hive分区表
从spark1.2 到spark1.3,spark SQL中的SchemaRDD变为了DataFrame,DataFrame相对于SchemaRDD有了较大改变,同时提供了更多好用且方便的API.Da ...

随机推荐

java常见的面试题(一)
1.Collection 和 Collections 有什么区别? Collection 是一个集合接口(集合类的一个顶级接口).它提供了对集合对象进行基本操作的通用接口方法.Collection接口 ...
Python基础教程：模块重载的五种方法
环境准备新建一个 foo 文件夹,其下包含一个 bar.py 文件 $ tree foo foo └── bar.py 0 directories, 1 file bar.py 的内容非常简单,只写 ...
IDEA插件配置之Eclipse Code Formatte
1.下载在idea中的Plugins中下载插件 Eclipse Code Formatte,下载过之后重启. 2.配置将自己下载的xml文件加载进来即可. 这个xml文件可自行在网上找找,有需要的 ...
Tomcat深入浅出——Servlet(二)
一.Servlet简介 Servlet类最终开发步骤: 第一步:编写一个Servlet类,直接继承HttpServlet 第二步:重写doGet方法或者doPost方法,重写哪个我说的算! 第三步:将 ...
Webpack干货系列 | 怎么运用 Webpack 5 处理css/scss/sass、less、stylus样式资源
程序员优雅哥简介:十年程序员,呆过央企外企私企,做过前端后端架构.分享vue.Java等前后端技术和架构. 本文摘要:主要讲解webpack 5 如何高效处理CSS 资源.scss/sass 资源.l ...
PE格式: 分析IatHook并实现
Ring 3层的 IAT HOOK 和 EAT HOOK 其原理是通过替换IAT表中函数的原始地址从而实现Hook的,与普通的 InlineHook 不太一样 IAT Hook 需要充分理解PE文件的 ...
绝对路径和相对路径和File类的构造方法
路径: 绝对路径:是一个完整的路径以盼复(C:,D:)开始的路径 c:\a.txt C:\User\itcast\IdeaProjects\shungyuan\123.txt D:\demo\b.t ...
Vue3.0工程创建 && setup、ref、reactive函数 && Vue3.0响应式实现原理
1 # 一.创建Vue3.0工程 2 # 1.使用vue-cli创建 3 # 官方文档: https://cli.vuejs.org/zh/guide/creating-a-project.html# ...
Vue 模板语法 && 数据绑定
1 <!DOCTYPE html> 2 <html> 3 <head> 4 <meta charset="UTF-8" /> 5 & ...
SElinux管理
SElinux: 是Linux的一个强制访问控制的安全模块 SElinux的相关概念: 对象:文件.目录.进程.端口等主体:进程称为主体 SElinux将所有的文件都赋予一个type类型的标签,所有 ...

Spark 读Hive并写入HBase

Spark 读Hive并写入HBase的更多相关文章

随机推荐

热门专题