Spark访问与HBase关联的Hive表

知识点1：创建关联Hbase的Hive表

知识点2：Spark访问Hive

知识点3：Spark访问与Hbase关联的Hive表

知识点1：创建关联Hbase的Hive表

两种方式创建，内部表和外部表

内部表，如果删除hive表，hbase表也会删除；不建议使用这种方式，大多数都是关联进行查询操作

外部表，如果删除hive表，hbase表不受影响；

hive使用的还是存储在hbase中的数据。

这里创建外部表。

CREATE EXTERNAL TABLE tdatafromhbase(key string, id string, info map<STRING,STRING> )
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key, cf1:id, cf2:")
TBLPROPERTIES("hbase.table.name" = "userinfo");

Hbase中的表名为userinfo;

Hive中的表名为tdatafromhbase,字段为key, id, info<>;

由于在使用hbase的时候列名会很多且未知，这里使用了map数据类型存储列族cf2的内容。针对已知的列名可以直接指定，这里id就是列族cf1的字段id；

知识点2：spark访问hive

import org.apache.spark.sql.hive.HiveContext

import org.apache.spark.{SparkContext, SparkConf}

/**

  * Created by Edward on 2017/9/19.

  */

object HiveSql {

  def main(args: Array[String]) {

    val conf = new SparkConf().setAppName("sql-hive")

    val sc =new SparkContext(conf)

    val hiveContext = new HiveContext(sc)

    hiveContext.sql("select key, id, info from tdatafromhbase").collect().foreach(println)

    sc.stop()

  }

}

知识点3：Spark访问与Hbase关联的Hive表

直接调用hive没什么差别，需要注意的就是，需要引用jar包，不然会报错

2017-10-03 01:55:36,817 ERROR [main] hive.log: error in initSerDe: java.lang.ClassNotFoundException Class org.apache.hadoop.hive.hbase.HBaseSerDe not found

java.lang.ClassNotFoundException: Class org.apache.hadoop.hive.hbase.HBaseSerDe not found

在spark-submit的时候添加参数，使用hive的库hive-hbase-handler-1.1.0-cdh5.10.0.jar

--jars /home/hadoop/app/hive-1.1.0-cdh5.10.0/lib/hive-hbase-handler-1.1.0-cdh5.10.0.jar

应用场景，spark操作hive,当然spark也可以直接操作hbase, 这里使用spark通过hive访问hbase,有点绕。

根据自己的实际需求，和性能要求进行调整。

Spark访问与HBase关联的Hive表的更多相关文章

创建hive与hbase关联的hive表与hbase表
创建hive与hbase的关联表 create external table hive_hbase(rowkey string,name string,addr string,topic string ...
Spark SQL解析查询parquet格式Hive表获取分区字段和查询条件
首先说一下,这里解决的问题应用场景: sparksql处理Hive表数据时,判断加载的是否是分区表,以及分区表的字段有哪些?再进一步限制查询分区表必须指定分区? 这里涉及到两种情况:select SQ ...
Spark DataFrame vector 类型存储到Hive表
1. 软件版本软件版本 Spark 1.6.0 Hive 1.2.1 2. 场景描述在使用Spark时,有时需要存储DataFrame数据到Hive表中,一般的存储方式如下: // 注册临时表 ...
Spark访问Hive表
知识点1:Spark访问HIVE上面的数据配置注意点:. 1.拷贝mysql-connector-java-5.1.38-bin.jar等相关的jar包到你${spark_home}/lib中(sp ...
hadoop系列第二坑： hive hbase关联表问题
关键词: hive创建表卡住了创建hive和hbase关联表卡住了其实针对这一问题在info级别的日志下是看出哪里有问题的(为什么只能在debug下才能看见呢,不太理解开发者的想法). 以调试模式 ...
hive和hbase本质区别——hbase本质是OLTP的nosql DB，而hive是OLAP 底层是hdfs，需从已有数据库同步数据到hdfs;hive可以用hbase中的数据，通过hive表映射到hbase表
对于hbase当前noSql数据库的一种,最常见的应用场景就是采集的网页数据的存储,由于是key-value型数据库,可以再扩展到各种key-value应用场景,如日志信息的存储,对于内容信息不需要完 ...
Spark&Hive：如何使用scala开发spark访问hive作业，如何使用yarn resourcemanager。
背景: 接到任务,需要在一个一天数据量在460亿条记录的hive表中,筛选出某些host为特定的值时才解析该条记录的http_content中的经纬度: 解析规则譬如: 需要解析host: api.m ...
把kafka数据从hbase迁移到hdfs，并按天加载到hive表(hbase与hadoop为不同集群)
需求:由于我们用的阿里云Hbase,按存储收费,现在需要把kafka的数据直接同步到自己搭建的hadoop集群上,(kafka和hadoop集群在同一个局域网),然后对接到hive表中去,表按每天做分 ...
hive-hbase-handler方式导入hive表数据到hbase表中
Hive与HBase的整合功能的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠hive-hbase-handler.jar工具类 : hive-hbase-handler.jar在 ...

随机推荐

web自动化基于python+Selenium+PHP+Ftp实现的轻量级web自动化测试框架
基于python+Selenium+PHP+Ftp实现的轻量级web自动化测试框架 by:授客 QQ:1033553122 博客:http://blog.sina.com.cn/ishou ...
Android为TV端助力 apk静默安装
转载请注明出处:http://blog.csdn.net/guolin_blog/article/details/47803149 之前有很多朋友都问过我,在Android系统中怎样才能实现静默安装呢 ...
this和e.target的异同
每次触发DOM事件时会产生一个事件对象(也称event对象),此处的参数e接收事件对象.而事件对象也有很多属性和方法,其中target属性是获取触发事件对象的目标,也就是绑定事件的元素,e.targe ...
Testlink1.9.17使用方法(第十二章总结)
第十二章总结 QQ交流群:585499566 TestLink用于进行测试过程中的管理,通过使用TestLink提供的功能,我们可以将测试过程从:测试需求.测试设计.到测试执行.完整的管理起来,同时 ...
生产者、消费者模型---Queue类
Queue队列在几乎每种编程语言都会有,python的列表隐藏的一个特点就是一个后进先出(LIFO)队列.而本文所讨论的Queue是python标准库queue中的一个类.它的原理与列表相似,但是先进 ...
Scala视图界定
package big.data.analyse.dataSet /** * 视图界定 * Created by zhen on 2018/11/29. */ /*class Pair_NotPerf ...
Navicat Premium 连接oracle ORA-01017：用户名/口令无效；登陆被拒绝
解决的方法就是将用户名改成system
使用FormData进行Ajax请求上传文件
Servlet3.0开始提供了一系列的注解来配置Servlet.Filter.Listener等等.这种方式可以极大的简化在开发中大量的xml的配置.从这个版本开始,web.xml可以不再需要,使用相 ...
JavaSe: 不要小看了 Serializable
Java中,一个类要支持序列化,我们通常实现Serializable.在使用Serializable,应当制定一个SerialVersionUID,用于代表类的版本.如果不指定会有什么影响呢?在了解这 ...
Docker 入门到实践（三）Docker 安装
注意:不要在没有配置 Docker APT 源的情况下直接使用 apt 命令安装 Docker. 一.准备工作系统要求 Docker CE 支持一下版本的 Ubuntu 操作系统 Cosmic 18 ...

Spark访问与HBase关联的Hive表

Spark访问与HBase关联的Hive表的更多相关文章

随机推荐

热门专题