Failed to create Spark client for Spark session

最近在hive里将mr换成spark引擎后，执行插入和一些复杂的hql会触发下面的异常：

org.apache.hive.service.cli.HiveSQLException: Error while compiling statement: FAILED: SemanticException Failed to get a spark session: org.apache.hadoop.hive.ql.metadata.HiveException: Failed to create Spark client for Spark session c5924990-6187-4a15-a760-ec3b1afbc199

未能创建spark客户端的原因有这几个：

1，spark没有打卡

2，spark和hive版本不匹配

3，hive连接spark客户端时长过短

解决方案：

1，在进入hive之前，需要依次启动hadoop，spark，hiveservice，这样才能确保hive在启动spark引擎时能成功

spark启动：

cd /opt/spark

./sbin/start-all.sh

2,版本问题是最常见也是出现最多的问题，我用的版本依次为hadoop3.3.0，hive3.1.2，spark2.4.7，之前测试过spark3.0.1，发现和hive不兼容

这里还需要注意Apache官网的提供了如图所示的几个spark包版本：

但在集成hive时spark本身不能自带hive配置，所以只有第三个是可以用的，但是我测试了一下在我的电脑上还是报错，所以我选择了自己编译，下载最后一个源码包，解压后进入spark目录

输入命令：

./dev/make-distribution.sh --name without-hive --tgz -Pyarn -Phadoop-3.3 -Dhadoop.version=3.3.0 -Pparquet-provided -Porc-provided -Phadoop-provided

但是发现编译卡住了，原来编译会自动下载maven，scala，zinc，存放在build目录下，如图：

由于下载过于缓慢，这里直接将这三个包放在build目录下，解压好，编译时会自动识别，可以省去很多时间，快速进入编译，需要压缩包的可以关注公众号：Tspeaker97 给我发消息找我要

编译过程比较慢，我花了30分钟才将spark编译好，中间还网络断流卡住失败了一次，如果不能访问外网的，建议将maven镜像改为阿里云。

编译完成后在spark目录下就可以看到编译出的tgz包，解压到对应目录：

vim spark-env.sh

插入如下代码：

export SPARK_DIST_CLASSPATH=$(hadoop classpath)

接下来就是hive的设置，这里我用的是公司编译好的版本，大小比Apache官网大一点，想要可以微信扣我

进入hive/conf目录：

vim spark-defaults.conf

插入如下代码：

spark.master                             yarn

spark.eventLog.enabled                   true

spark.eventLog.dir                       hdfs://hadoop01:9820/spark-history

spark.executor.memory                    2g

在hdfs创建对应目录并拷贝jar包：

hadoop fs -mkdir /spark-history

hadoop fs -mkdir /spark-jars

hadoop fs -put /opt/spark/jars/* /spark-jars

在hive/conf/hive-site.xml中增加：（这里特地延长了hive和spark连接的时间，可以有效避免超时报错）

<!--Spark依赖位置-->

<property>

    <name>spark.yarn.jars</name>

    <value>hdfs://hadoop01:9820/spark-jars/*</value>

</property>

<!--Hive执行引擎-->

<property>

    <name>hive.execution.engine</name>

    <value>spark</value>

</property>

<!--Hive和spark连接超时时间-->

<property>

    <name>hive.spark.client.connect.timeout</name>

    <value>100000ms</value>

</property>

然后启动spark服务，hive服务，并进入hive客户端，执行hql：

set hive.exec.mode.local.auto=true;

create table visit(user_id string,shop string) row format delimited fields terminated by '\t';

load data local inpath '/opt/hive/datas/user_id' into table visit;

SELECT t1.shop,

       t1.user_id,

       t1.count,

       t1.rank

FROM

  (SELECT shop,

          user_id,

          count(user_id) COUNT,

          rank() over(partition BY shop ORDER BY count(user_id) DESC) rank

   FROM visit

   GROUP BY user_id,

            shop

   ORDER BY shop ASC, COUNT DESC ) t1

WHERE rank <4;

spark引擎成功启动：

如果有其他问题，欢迎叨扰：

Failed to create Spark client for Spark session的更多相关文章

hive on spark：return code 30041 Failed to create Spark client for Spark session原因分析及解决方案探寻
最近在Hive中使用Spark引擎进行执行时(set hive.execution.engine=spark),经常遇到return code 30041的报错,为了深入探究其原因,阅读了官方issu ...
AX2012 R3 Data upgrade checklist sync database step, failed to create a session;
最近在做AX2012 R3 CU9 到CU11的upgrade时 (用的Admin帐号), 在Date upgrade 的 synchronize database 这步跑了一半,报出错误说“fa ...
Tensorflow 报错：tensorflow.python.framework.errors_impl.InternalError: Failed to create session.
问题描述 IDE:pycharm,环境中安装tensorflow-gpu 1.8.0 ,Cuda9 ,cudnn 7,等,运行代码报错如下 tensorflow.python.framework.e ...
Spark On Yarn报警告信息 WARN yarn.Client: Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading libraries under SPARK_HOME.
1 贴出完整日志信息 // :: INFO client.RMProxy: Connecting to ResourceManager at hdp1/ // :: INFO yarn.Client: ...
Spark Client启动原理探索
经过几天闲暇时间的学习,终于又理解的深入了一些,关于Spark Client如何提交作业也更清晰了点. 在整体的流程图上是这样的: 大体的思路就是应用程序通过SparkSubmit提交程序后,自动在当 ...
用NFS挂载root出现：NFS: failed to create MNT RPC client, status=-101（－110）
2014-02-18 08:06:17 By Ly #Linux 阅读(78) 评论(0) 错误信息如下: Root-NFS: nfsroot=/home/zenki/nfs/rootfs NFS ...
spark client + yarn计算
前提:完成hadoop + kerberos安全环境搭建. 安装配置spark client: 1. wget https://d3kbcqa49mib13.cloudfront.net/spark- ...
【原创】大数据基础之Spark（1）Spark Submit即Spark任务提交过程
Spark2.1.1 一 Spark Submit本地解析 1.1 现象提交命令: spark-submit --master local[10] --driver-memory 30g --cla ...
Docker 搭建Spark 依赖sequenceiq/spark:1.6镜像
使用Docker-Hub中Spark排行最高的sequenceiq/spark:1.6.0. 操作: 拉取镜像: [root@localhost home]# docker pull sequence ...

随机推荐

第9.1节 Python的文件打开函数open简介
一.语法简介函数基本使用语法:open(文件名,文件打开模式='rt') 其中: 1.文件名为可带路径的文件名,注意windows下路径的反斜杠会被作为转义符处理,因此可以采用前面再加反斜杠或使用原 ...
PyQt（Python+Qt）学习随笔：invisibleRootItem方法访问QTreeWidget树型部件的隐形根节点
老猿Python博文目录专栏:使用PyQt开发图形界面Python应用老猿Python博客地址我们知道在数据结构上来说,任何树都是有根节点的,但我们在QTreeWidget对象中并没有看到界面上 ...
PyQt(Python+Qt)学习随笔：Designer中的QDialogButtonBox的ButtonRole详解
一.引言在Designer中创建的QDialogButtonBox对应的Button,都有指定的ButtonRole,而我们创建自定义的Button加入到QDialogButtonBox中去时,也需 ...
搭建伪分布式 hadoop3.1.3 + zookeeper 3.5.7 + hbase 2.2.2
安装包 Hadoop 3.1.3 Zookeeper 3.5.7 Hbase 2.2.2 所需工具链接: 链接:https://pan.baidu.com/s/1jcenv7SeGX1gjPT9RnB ...
centos 6.4-linux环境配置，安装hadoop-1.1.2（hadoop伪分布环境配置）
1 Hadoop环境搭建 hadoop 的6个核心配置文件的作用: core-site.xml:核心配置文件,主要定义了我们文件访问的格式hdfs://. hadoop-env.sh:主要配置我们的j ...
上传到github
我是为了自己下次不用再找github上传的地方了,索性就复制了一篇转载于 https://blog.csdn.net/m0_37725003/article/details/80904824 首先你 ...
Go-数据类型-字符串-string
字符串 -- string 字符串使用双引号表示 " " 多行或原始字符串(反斜杠失去转义行为)使用反引号 `` 字符使用单引号表示 ' ',表示单独的字母.中文.数字字符串转 ...
Springboot集成swagger和knife
前言 knife4j是在swagger的基本上做做了一次封装,主要体现在ui表现,所有在使用前必须先搭建好swagger2,其实是swagger和knife都可以访问, 至于哪个好用全看个人! swa ...
KM 算法
KM 算法可能需要先去学学匈牙利算法等二分图相关知识. 模板题-洛谷P6577 [模板]二分图最大权完美匹配给 \(n\) 和 \(m\) 与边 \(u_i,v_i,w_i(1\le i\le m ...
使用Tomcat Native提升Tomcat IO效率
目录简介 Tomcat的连接方式 APR和Tomcat Native 在tomcat中使用APR 简介 IO有很多种,从最开始的Block IO,到nonblocking IO,再到IO多路复用和异 ...

Failed to create Spark client for Spark session

Failed to create Spark client for Spark session的更多相关文章

随机推荐

热门专题