背景:

  场景需求1:使用spark直接读取HBASE表

  场景需求2:使用spark直接读取HIVE表

  场景需求3:使用spark读取HBASE在Hive的外表

摘要:

  1.背景

  2.提交脚本

内容

场景需求1:使用spark直接读取HBASE表

编写提交脚本:

export SPARK2_HOME=/var/lib/hadoop-hdfs/spark-2.0.-bin-hadoop2.

export HBASE_LIB_HOME=/opt/cloudera/parcels/CDH/lib/hbase
$SPARK2_HOME/bin/spark-shell --jars \
$HBASE_LIB_HOME/hbase-common-0.98.-cdh5.3.2.jar\
,$HBASE_LIB_HOME/hbase-client-0.98.-cdh5.3.2.jar\
,$HBASE_LIB_HOME/hbase-protocol-0.98.-cdh5.3.2.jar,\
,$HBASE_LIB_HOME/hbase-server-0.98.-cdh5.3.2.jar\
,$HBASE_LIB_HOME/lib/htrace-core-2.04.jar

场景需求2:使用spark直接读取HIVE表

编写提交脚本:

export OPT_LIB_HOME=/var/lib/spark/lib
export HBASE_LIB_HOME=/var/lib/hbase/lib /data/dmp/spark/bin/pyspark --master yarn-client \
--jars $OPT_LIB_HOME/mysql-connector-java-5.1.-bin.jar

场景需求3:使用spark读取HBASE在Hive的外表

编写提交脚本:

export SPARK_HOME=/data/dmp/spark
export OPT_LIB_HOME=$SPARK_HOME/lib $SPARK_HOME/bin/pyspark --master yarn-client \
--jars $OPT_LIB_HOME/mysql-connector-java-5.1.-bin.jar,$OPT_LIB_HOME/hive-hbase-handler-1.2..jar,$OPT_LIB_HOME/hbase-client-0.98.-cdh5.3.3.jar,$OPT_LIB_HOME/hbase-common-0.98.-cdh5.3.3.jar,$OPT_LIB_HOME/hbase-hadoop2-compat-0.98.-cdh5.3.3.jar,$OPT_LIB_HOME/hbase-protocol-0.98.-cdh5.3.3.jar,$OPT_LIB_HOME/hbase-server-0.98.-cdh5.3.3.jar,$OPT_LIB_HOME/htrace-core-2.04.jar,$OPT_LIB_HOME/guava-14.0..jar

2.代码例子

pom添加HBase依赖:https://github.com/Tongzhenguo/my_scala_code/blob/master/pom.xml

编写Spark Driver Application 类:https://github.com/Tongzhenguo/my_scala_code/blob/master/src/main/scala/utils/HBaseSparkReadUtils.scala

Spark整合HBase,Hive的更多相关文章

  1. 大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 图文详解

    引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...

  2. HADOOP+SPARK+ZOOKEEPER+HBASE+HIVE集群搭建(转)

    原文地址:https://www.cnblogs.com/hanzhi/articles/8794984.html 目录 引言 目录 一环境选择 1集群机器安装图 2配置说明 3下载地址 二集群的相关 ...

  3. 大数据学习系列之九---- Hive整合Spark和HBase以及相关测试

    前言 在之前的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 中介绍了集群的环境搭建,但是在使用hive进行数据查询的时候会非常的慢,因为h ...

  4. 大数据学习系列之五 ----- Hive整合HBase图文详解

    引言 在上一篇 大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机) 和之前的大数据学习系列之二 ----- HBase环境搭建(单机) 中成功搭建了Hive和HBase的环 ...

  5. hive整合hbase

    Hive整合HBase后的好处: 通过Hive把数据加载到HBase中,数据源可以是文件也可以是Hive中的表. 通过整合,让HBase支持JOIN.GROUP等SQL查询语法. 通过整合,不仅可完成 ...

  6. spark读取hbase形成RDD,存入hive或者spark_sql分析

    object SaprkReadHbase { var total:Int = 0 def main(args: Array[String]) { val spark = SparkSession . ...

  7. 四 Hive整合HBase

    安装环境: hbase版本:hbase-1.4.0-bin.tar.gz hive版本:   apache-hive-1.2.1-bin.tar 注意请使用高一点的hbase版本,不然就算hive和h ...

  8. 创建hive整合hbase的表总结

    [Author]: kwu 创建hive整合hbase的表总结.例如以下两种方式: 1.创建hive表的同步创建hbase的表 CREATE TABLE stage.hbase_news_compan ...

  9. Spark-读写HBase,SparkStreaming操作,Spark的HBase相关操作

    Spark-读写HBase,SparkStreaming操作,Spark的HBase相关操作 1.sparkstreaming实时写入Hbase(saveAsNewAPIHadoopDataset方法 ...

随机推荐

  1. 【 HDU2966 】In case of failure(KD-Tree)

    BUPT2017 wintertraining(15) #5E HDU - 2966 题意 给平面直角坐标系下的n个点的坐标,求离每个点和它最近点的距离的平方.\(2 \le n \le 10^5\) ...

  2. 「HNOI2016」最小公倍数

    链接 loj 一道阔爱的分块 题意 边权是二元组(A, B),每次询问u, v, a, b,求u到v是否存在一条简单路径,使得各边权上\(A_{max} = a, B_{max} = b\) 分析 对 ...

  3. [SPOJ375]QTREE - Query on a tree【树链剖分】

    题目描述 给你一棵树,两种操作. 修改边权,查找边权的最大值. 分析 我们都知道,树链剖分能够维护点权. 而且每一条边只有一个,且唯一对应一个儿子节点,那么就把信息放到这个儿子节点上. 注意,lca的 ...

  4. [luogu1452]Beauty Contest【凸包+旋转卡壳】

    题目大意 求出平面最远点对距离的平方. 分析 此题我wa了好久,第一是凸包写错了,后面又是旋转卡壳写错了..自闭3s. 题解应该是旋转卡壳,但是有人用随机化乱搞过掉了Orz. 讲讲正解. 我们先求出所 ...

  5. CF527E Data Center Drama(构造+欧拉回路)

    题目链接 大意: 给你一个无向图. 要求加最少的边,然后给这些无向图的边定向,使得每一个点的出入度都是偶数. 输出定向后的边数和边集. n<=10^5 m<=2*10^5 很巧妙的构造题- ...

  6. 让Mac 可以使用mysql -u用户直接连接数据库

    在执行完安装版本的mysql数据库后,会发现执行mysql还是会出现 command not found的错误:解决方案 方案1.设置软连接到/usr/local/bin下在命令行下输入如下 ln - ...

  7. js原生事件系统与坐标系统

    今天来实现一个可兼容的js原生拖拽,在这里面我将会讲到: 1.封装兼容性的事件系统. 2.封装得到鼠标当前位置的系统. 3.完成拖拽的实现. 首先,我们要讲到鼠标位置的获取,讲到这个,就离不开js的w ...

  8. javascript Object的新方法

    今天复习es6,又看到Object的一堆方法,与es5的表现又有不一致,耗费了一整天,整理一下: 前几天在司徒正美的书里又看到了es5 Object的字眼,为了向下兼容,大神们也是牛逼的整理出一系列i ...

  9. Mybatis 缓存失效的几种情况

    1 不在同一个sqlSession对象中 下面比较下载同一个sqlSession和不在同一sqlSession下面的两种情况: 同一sqlSession: @Test public final voi ...

  10. Windows系统服务管理

    1.用SC命令管理: 启动redis服务: C:\Users\Administrator>sc start redis 停止redis服务: C:\Users\Administrator> ...