hive on spark (spark2.0.0 hive2.3.3)

hive on spark真的很折腾人啊!!!!!!!

一.软件准备阶段

maven3.3.9

spark2.0.0

hive2.3.3

hadoop2.7.6

二.下载源码spark2.0.0,编译

下载地址:http://archive.apache.org/dist/spark/spark-2.0.0/

编译: ./dev/make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided"

三.将编译好的spark-2.0.0-bin-hadoop2-without-hive.tgz tar -zxvf 到目录

在/etc/profile里配置好 $SPARK_HOME环境变量，并 . /etc/profile使环境变量生效。

接下来配置hive/spark/yarn

1) 配置hive

1.拷贝spark下的jar包到hive的lib下

cp scala-library-2.11.8.jar /usr/share/hive-2.3.3/lib/
cp spark-core_2.11-2.0.0.jar /usr/share/hive-2.3.3/lib/
cp spark-network-common_2.11-2.0.0.jar /usr/share/hive-2.3.3/lib/

2.在hive的conf下建立文件spark-defaults.conf

set hive.execution.engine=spark;

set spark.master=yarn;

set spark.submit.deployMode=client;

set spark.eventLog.enabled=true;

set spark.executor.memory=2g;

set spark.serializer=org.apache.spark.serializer.KryoSerializer;

3. 修改hive-site.xml,增加

目的：允许yarn缓存spark依赖的一些jar包到各个nodeManager节点上，避免每次应用运行频繁分发。

upload all jars in $SPARK_HOME/jars to hdfs file(for example:hdfs://bi/spark-jars/）

1)hdfs dfs -put ../jars /spark-jars //上传spark依赖的jars到hdfs的spark-jars目录里。

2)修改hive-site.xml,增加

<name>spark.yarn.jars</name>

<value>hdfs://bi/spark-jars/*</value>

</property>

2)配置spark

cp spark-env.sh.template spark-env.sh

配置spark-env.sh

export SPARK_DIST_CLASSPATH=$(/usr/share/hadoop-HA/hadoop-2.7.6/bin/hadoop classpath)

export HADOOP_HOME=/usr/share/hadoop-HA/hadoop-2.7.6

export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop/

export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop/

四）测试

开启metastore: nohup hive --service metastore &

开启hiveserver2: nohup hive --service hiveserver2 &

set hive.execution.engine=spark;

hive on spark (spark2.0.0 hive2.3.3)的更多相关文章

Spark记录-源码编译spark2.2.0（结合Hive on Spark/Hive on MR2/Spark on Yarn）
#spark2.2.0源码编译 #组件:mvn-3.3.9 jdk-1.8 #wget http://mirror.bit.edu.cn/apache/spark/spark-2.2.0/spark- ...
Hadoop 3.1.2(HA)+Zookeeper3.4.13+Hbase1.4.9(HA)+Hive2.3.4+Spark2.4.0(HA)高可用集群搭建
目录目录 1.前言 1.1.什么是 Hadoop? 1.1.1.什么是 YARN? 1.2.什么是 Zookeeper? 1.3.什么是 Hbase? 1.4.什么是 Hive 1.5.什么是 Sp ...
Spark2.1.0安装
1.解压安装spark tar zxf spark-2.1.O-bin-2.6.0-CDH5.10.0.tgz 2.修改配置文件 vim /etc/profile export SPARK_HOME= ...
Spark2.1.0编译
1.下载spark源码包 http://spark.apache.org/downloads.html 2.安装Scala与maven,解压spark源码包安装Scala: tar zxf scal ...
linux安装spark-2.3.0集群
(安装spark集群的前提是服务器已经配置了jdk并且安装hadoop集群(主要是hdfs)并正常启动,hadoop集群安装可参考<hadoop集群搭建(hdfs)>) 1.配置scala ...
Apache Hadoop集群离线安装部署(二)——Spark-2.1.0 on Yarn安装
Apache Hadoop集群离线安装部署(一)——Hadoop(HDFS.YARN.MR)安装:http://www.cnblogs.com/pojishou/p/6366542.html Apac ...
Hive on Spark和Spark sql on Hive，你能分的清楚么
摘要:结构上Hive On Spark和SparkSQL都是一个翻译层,把一个SQL翻译成分布式可执行的Spark程序. 本文分享自华为云社区<Hive on Spark和Spark sql o ...
spark2.3.0 配置spark sql 操作hive
spark可以通过读取hive的元数据来兼容hive,读取hive的表数据,然后在spark引擎中进行sql统计分析,从而,通过spark sql与hive结合实现数据分析将成为一种最佳实践.配置步骤 ...
spark最新源码下载并导入到开发环境下助推高质量代码(Scala IDEA for Eclipse和IntelliJ IDEA皆适用）（以spark2.2.0源码包为例）（图文详解）
不多说,直接上干货! 前言其实啊,无论你是初学者还是具备了有一定spark编程经验,都需要对spark源码足够重视起来. 本人,肺腑之己见,想要成为大数据的大牛和顶尖专家,多结合源码和操练编程. ...

随机推荐

nmap使用帮助翻译
Nmap 7.60 ( https://nmap.org )Usage: nmap [扫描类型] [操作] {目标说明}目标说明: 可以识别主机名.IP地址.网络,等等. 例如: scanme.n ...
c++实现双端队列
在使用c++容器的时候其底层如何实现例如 vector 容器 :是一个内存可以二倍扩容的向量容器,使用方便但是对内存要求严格,弊端明显 list 容器 : 双向循环链表 deq ...
Scratch编程：多彩的舞台（六）
“ 上节课的内容全部掌握了吗?反复练习了没有,编程最好的学习方法就是练习.练习.再练习.一定要记得多动手.多动脑筋哦~~” 01 — 游戏介绍这是一款简单的小游戏,实现了一个小女孩在多彩的舞台上进行 ...
Codeforces Round #415 (Div. 1) (CDE)
1. CF 809C Find a car 大意: 给定一个$1e9\times 1e9$的矩阵$a$, $a_{i,j}$为它正上方和正左方未出现过的最小数, 每个询问求一个矩形内的和. 可以发现$ ...
杭电1081 第二道 dfs题
Problem Description 呃......变形课上Harry碰到了一点小麻烦,因为他并不像Hermione那样能够记住所有的咒语而随意的将一个棒球变成刺猬什么的,但是他发现了变形咒语的一个 ...
JS中浏览器的数据存储机制
一.JS中的三种数据存储方式 cookie.sessionStorage.localStorage 二.cookie 1.cookie的定义: cookie是存储在浏览器上的一小段数据,用来记录某些当 ...
Android面试题描述一下android的系统架构
android系统架构从下往上为linux内核层.运行库.应用程序框架层和应用程序层. Linux Kernel:负责硬件的驱动程序.网络.电源.系统安全以及内存管理等功能. Libraries和an ...
Android笔记（二十） Activity中的跳转和值传递
我们知道,一个APP是由若干个Activity组成的,那么各个Acitivity中肯定需要进行跳转以及传递数值以保证App的运行,现总结一下多个Activity之间的跳转和值传递. 显式Intent跳 ...
【OF框架】配置信息Config添加配置和代码调用api
一.配置规范配置信息全部写在OF.WebShell项目文件config.json中配置键使用OF.开头,配置格式如下: { "OF.IgnoredUrl": "log ...
pytorch版yolov3训练自己数据集
目录 1. 环境搭建 2. 数据集构建 3. 训练模型 4. 测试模型 5. 评估模型 6. 可视化 7. 高级进阶-网络结构更改 1. 环境搭建将github库download下来. git cl ...

hive on spark (spark2.0.0 hive2.3.3)

hive on spark (spark2.0.0 hive2.3.3)的更多相关文章

随机推荐

热门专题