Spark访问Hive表

知识点1：Spark访问HIVE上面的数据

　　配置注意点：.

　　　　1.拷贝mysql-connector-java-5.1.38-bin.jar等相关的jar包到你${spark_home}/lib中（spark2.0之后是${spark_home}/jars下），不清楚就全部拷贝过去

　　　　2.将Hive的配置文件hive-site.xml拷贝到${spark_home}/conf目录下

　　　　3.因为使用ThriftJDBC/ODBC Server访问spark SQL，所以要修改hive-site.xml文件　

　　　　　　　　　　<name>hive.metastore.uris</name>

　　　　　　　　　　<value>thrift://hadoop1:9083</value>

　　　　　　　　　　<description>Thrift URI for the remote metastore. Used by metastore client to connect to remote metastore.</description>

　　　　　　　　</property>

　　　4.启动hivede metastroe后台进程。执行${hive_home}/bin/hive --service metastore启动hive的service metastore后台进程。

　　　　　5.启动spark-shell访问hive上数据。在${spark_home}/bin下执行./spark-shell --master spark://master:7077 （可添加其他参数rg:--jars等参数）　　　　

知识点2：Spark访问与HBase关联的Hive表

　　创建关联HBase的Hive外表：

DROP TABLE IF EXISTS table_name;

CREATE EXTERNAL TABLE  table_name (ROWKEY STRING,Name STRING,ADDRESS STRING )

ROW FORMAT DELIMITED

COLLECTION ITEMS TERMINATED BY ','

STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'

WITH SERDEPROPERTIES("hbase.columns.mapping"=":key,A:Name,A:ADDRESS")

TBLPROPERTIES("hbase.table.name" = "table_name");

　　如果创建的是内部表，删除了hive表，hbase上对应的表也会被删除，不建议使用这种方式。

　　如果创建的是外部表，使用drop只是删除了hive的元数据，hbase表不会受影响。

　　扩展：使用drop删除hive的外表后，如果重新创建该表并load数据到该表中，将会出现部分数据是上次插入的数据，导致总数据量大于第二次插入的数据量，出现这种情况的原因是因为drop删除表，只是删除了表的元数据，不会删除表中的数据，表中的数据存储在创建语句location指定的hdfs路径下，只要删除该文件即可。

　　配置注意点：

　　　　1.Hive的配置部署与知识点1一样

　　　　2.拷贝如下jar包到你${spark_home}/lib中（spark2.0之后是${spark_home}/jars下），缺少这些jarj将会报错，本人是将hbase下所有jar都复制到了${spark_home}/lib中

- - hbase-protocol-1.1.2.jar
  - hbase-client-1.1.2.jar
  - hbase-common-1.1.2.jar
  - hbase-server-1.1.2.jar
  - hive-hbase-handler-1.2.1.jar
  - metrics-core-2.2.0.jar

　　　　3.将HBase的配置文件hbase-site.xml拷贝到${spark_home}/conf目录下

　　　　4.启动spark-shell访问与hbase关联的hive上数据。在${spark_home}/bin下执行./spark-shell --master spark://master:7077 （可添加其他参数rg:--jars等参数，eg:

./bin/spark-shell --master spark://Master36:7077 --jars /usr/local/spark/lib/hive-hbase-handler-1.2.1.jar,/usr/local/spark/lib/hbase-common-1.1.2.jar,/usr/local/spark/lib/hbase-client-1.1.2.jar,/usr/local/spark/lib/hbase-protocol-1.1.2.jar,/usr/local/spark/lib/hbase-server-1.1.2.jar,/usr/local/spark/lib/metrics-core-2.2.0.jar,/usr/local/spark/lib/guava-12.0.1.jar,/usr/local/spark/lib/htrace-core-3.1.0-incubating.jar

）

代码：

 /**

      *下面是spark1.6.2读取hive的简单代码

      */

    val sqlContext=new org.apache.spark.sql.hive.HiveContext(sc)

    import sqlContext.implicites._

    val df=sqlContext.sql("select xxx from table_name").collect().foreach(println)

    /**

      *下面是spark2.11读取hive的简单代码

       *spark2.0版本访问hive配置部分将会简单一点

      */

    import org.apache.spark.sql.SparkSession

    val warehouseLocation="hdfs://master:9000/user/hive/warehouse"

    val spark =SparkSession.builder().appName("spark-hive").config("spark.sql.warehouse.dir",warehouseLocation).enableHiveSupport().getOrCreate()

    import spark.implicits._

    import spark.sql

    spark.sql("selectxxx from xx").show

    //将数据框保存到到指定路径中，可通过format来指定要保存的文件格式,repartition(n)设置输出文件的个数

   dataFrame.repartition(1).write.format("csv").save("hdfs://master:9000/xxx")

出现的错误总结（解决方法仅供参考）：

　1.error: Error creating transactional connection factory

　　解决方法：在hive和spark集群都能正常使用情况下，检查一下hive的service metastore后台进程是否已经启动了

　2.Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

　　解决方法：有可能是hive连接数据库部分出现了问题，在hive-site.xml文件中添加<property><name>hive.metastore.uris</name><value>thrift://hadoop1:9083</value></property>,如果配置后执行出现了新的错误：ERROR ObjectStore: Version information not found in metastore，这个新错误可能使用hive的jar包和存储元数据信息版本不一致而抛出的异常，可以在hive-site.xml文件中添加参数跳过版本的问题，<name>hive.metastore.schema.verification</name><value>false</value>,重启hive服务，如果还是继续报ERROR ObjectStore: Version information not found in metastore这个错误，说明刚刚配置的参数没有生效,接着要把hdfs-site.xml文件拷贝到${spark_home}/conf文件下，这可能是因为环境变量的问题引起的

　3.java.io.IOException: java.lang.reflect.InvocationTargetException

　　解决方法：由于缺少htrace-core-3.1.0-incubating.jar包，引入该包即可。

　4.java.lang.ClassNotFoundException Class org.apache.hadoop.hive.hbase.HBaseSerDe not found

　　解决方法：由于缺少相关的hbase的jar包（hbase-protocol-1.1.2.jar，hbase-client-1.1.2.jar，hbase-common-1.1.2.jar，hbase-server-1.1.2.jar等），可以在启动spark-shell通过--jars来添加。

　5.java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/util/Bytes

　　解决方法：由于缺少guava-12.0.1.jar包，引入该包即可。

Spark访问Hive表的更多相关文章

Spark 读写hive 表
spark 读写hive表主要是通过sparkssSession 读表的时候,很简单,直接像写sql一样sparkSession.sql("select * from xx") 就 ...
[Spark][Hive][Python][SQL]Spark 读取Hive表的小例子
[Spark][Hive][Python][SQL]Spark 读取Hive表的小例子$ cat customers.txt 1 Ali us 2 Bsb ca 3 Carls mx $ hive h ...
Spark&Hive：如何使用scala开发spark访问hive作业，如何使用yarn resourcemanager。
背景: 接到任务,需要在一个一天数据量在460亿条记录的hive表中,筛选出某些host为特定的值时才解析该条记录的http_content中的经纬度: 解析规则譬如: 需要解析host: api.m ...
SparkSQL On Yarn with Hive，操作和访问Hive表
转载自:http://lxw1234.com/archives/2015/08/466.htm 本文将介绍以yarn-cluster模式运行SparkSQL应用程序,访问和操作Hive中的表,这个和在 ...
spark使用Hive表操作
spark Hive表操作之前很长一段时间是通过hiveServer操作Hive表的,一旦hiveServer宕掉就无法进行操作. 比如说一个修改表分区的操作一.使用HiveServer的方式 v ...
使用spark对hive表中的多列数据判重
本文处理的场景如下,hive表中的数据,对其中的多列进行判重deduplicate. 1.先解决依赖,spark相关的所有包,pom.xml spark-hive是我们进行hive表spark处理的关 ...
使用spark访问hive错误记录
在spark集群中执行./spark-shell时报以下错误: 18/07/23 10:02:39 WARN DataNucleus.Connection: BoneCP specified but ...
Spark访问与HBase关联的Hive表
知识点1:创建关联Hbase的Hive表知识点2:Spark访问Hive 知识点3:Spark访问与Hbase关联的Hive表知识点1:创建关联Hbase的Hive表两种方式创建,内部表和外部表 ...
【原创】大叔经验分享（65）spark读取不到hive表
spark 2.4.3 spark读取hive表,步骤: 1)hive-site.xml hive-site.xml放到$SPARK_HOME/conf下 2)enableHiveSupport Sp ...

随机推荐

saltstack 基本的批量操作
centos 6.5 saltstack 2015.5.10 (Lithium) 基本用法 # salt 'DEV-APP-001' cmd.run 'hostname' #指定被控端 # salt ...
剑指offer（29）最小的K个数
题目描述输入n个整数,找出其中最小的K个数.例如输入4,5,1,6,2,7,3,8这8个数字,则最小的4个数字是1,2,3,4,. 题目分析这题有两种方法来做. 第一种就是基于partition的 ...
HBase运维实践－聊聊RIT的那点事
相信长时间运维HBase集群的童鞋肯定都会对RIT(Region-In-Transition,很多参考资料误解为Region-In-Transaction,需要注意)有一种咬牙切齿的痛恨感,一旦Reg ...
王之泰201771010131《面向对象程序设计（java）》第四周学习总结
王之泰201771010131<面向对象程序设计(java)>第四周学习总结第一部分:理论知识学习部分第四章 1.类与对象的基础概念. a.类(class)是构造对象的模板或蓝图.由类 ...
用bytomswap进行“跨链”资产转换
bytom是专注资产领域的公有区块链平台,最近开发者社区基于比原做了一款资产转换平台.我们可以在上面通过自己现有的资产在比原上发行资产.然后达到资产转换的目的. 一. 以太币资产转换成比原上的资产首 ...
[转]静态库、动态库，dll文件、lib文件，隐式链接、显式链接
转自:https://blog.csdn.net/dcrmg/article/details/53427181 静态链接.动态链接静态库和动态库分别应用在静态链接方式和动态链接方式中,所谓静态链接方 ...
android -------- Retrofit + RxJava2.0 + Kotlin + MVP 开发的 WanAndroid 项目
简介 wanandroid项目基于 Retrofit + RxJava2.0 + Kotlin + MVP 用到的依赖 implementation 'io.reactivex.rxjava2:rxj ...
『计算机视觉』Mask-RCNN_从服装关键点检测看KeyPoints分支
下图Github地址:Mask_RCNN Mask_RCNN_KeyPoints『计算机视觉』Mask-RCNN_论文学习『计算机视觉』Mask-RCNN_项目文档翻译『计算机视觉』Mas ...
1）python,现在用过的，后面推出每日练习语法与深度挖掘应用
python 1, Mac 系统自带的python路径 /System/Library/Frameworks/Python.framework/Version里面存放多个版本可通过:启动python ...
通用Mapper环境下，mapper接口无法注入问题
写了一个mapper接口 package com.nyist.mapper; import com.nyist.entity.User; import tk.mybatis.mapper.common ...

Spark访问Hive表

Spark访问Hive表的更多相关文章

随机推荐

热门专题