【HIVE & Spark】将hive引擎换成Spark,运行速度快!怎么换?请看本文
本教程仅仅是使用spark,能在hive用就行。
1.下载Spark;
2.WinSCP上传spark压缩包到虚拟机;
3.tar -zxvf spark-2.3.3-bin-without-hadoop -C /opt/programs/
4.
1)配置Spark环境变量;
2)配置spark-env.sh 命令cp spark-env.sh.template spark-env.sh
后vi spark-env.sh
末尾加上:
export JAVA_HOME=/usr/java/jdk1.8.0_25
export SPARK_DIST_CLASSPATH=$(/opt/programs/hadoop-2.6.0/bin/hadoop classpath)
// /opt/programs/hadoop-2.6.0/bin/hadoopg改成自己的路径
3)配置slaves
hadoop1
hadoop2
hadoop3
4)将Spark相关文件,连接到$HIVE_HOME/lib中
3个包:
scala-library-2.11.8.jar
spark-core_2.11-2.3.3.jar
spark-network-common_2.11-2.3.3.jar
ln -snf /opt/programs/spark-2.3.3/jars/spark-core_2.11-2.3.3.jar /opt/programs/hive-2.3.5/lib/spark-core_2.11-2.3.3.jar
配置成功的结果:
[root@hadoop1 conf]# ll /opt/programs/hive-2.3.5/lib/ | grep spark
lrwxrwxrwx. 1 root root 55 Sep 12 22:26 scala-library-2.11.8.jar -> /opt/programs/spark-2.3.3/jars/scala-library-2.11.8.jar
lrwxrwxrwx. 1 root root 56 Sep 12 22:27 spark-core_2.11-2.3.3.jar -> /opt/programs/spark-2.3.3/jars/spark-core_2.11-2.3.3.jar
lrwxrwxrwx. 1 root root 66 Sep 12 22:27 spark-network-common_2.11-2.3.3.jar -> /opt/programs/spark-2.3.3/jars/spark-network-common_2.11-2.3.3.jar
5)配置hive执行引擎
- 在配置文件里面配置;
<property>
<name>hive.execution.engine</name>
<value>spark</value>
</property>
- 在beeline配置,只在当前session有效;
//在beeline里
set hive.execution.engine=spark;
【HIVE & Spark】将hive引擎换成Spark,运行速度快!怎么换?请看本文的更多相关文章
- 大数据核心知识点:Hbase、Spark、Hive、MapReduce概念理解,特点及机制
今天,上海尚学堂大数据培训班毕业的一位学生去参加易普软件公司面试,应聘的职位是大数据开发.面试官问了他10个问题,主要集中在Hbase.Spark.Hive和MapReduce上,基础概念.特点.应用 ...
- Hive扩展功能(七)--Hive On Spark
软件环境: linux系统: CentOS6.7 Hadoop版本: 2.6.5 zookeeper版本: 3.4.8 主机配置: 一共m1, m2, m3这五部机, 每部主机的用户名都为centos ...
- SparkSQL & Spark on Hive & Hive on Spark
刚开始接触Spark被Hive在Spark中的作用搞得云里雾里,这里简要介绍下,备忘. 参考:https://blog.csdn.net/zuochang_liu/article/details/82 ...
- Hive架构及Hive On Spark
Hive的所有数据都存在HDFS中. (1)Table:每个表都对应在HDFS中的目录下,数据是经过序列化后存储在该目录中.同时Hive也支持表中的数据存储在其他类型的文件系统中,如NFS或本地文件系 ...
- Spark 操作Hive 流程
1.ubuntu 装mysql 2.进入mysql: 3.mysql>create database hive (这个将来是存 你在Hive中建的数据库以及表的信息的(也就是元数据))mysql ...
- spark sql/hive小文件问题
针对hive on mapreduce 1:我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并: 参数详细内容可参考官网:https://cwiki.apache.org/conflue ...
- 小记---------spark组件与其他组件的比较 spark/mapreduce ;spark sql/hive ; spark streaming/storm
Spark与Hadoop的对比 Scala是Spark的主要编程语言,但Spark还支持Java.Python.R作为编程语言 Hadoop的编程语言是Java
- Spark链接hive时 “HikariCP” 问题
IDE本地调试和spark-shell调试报错: Caused by: org.datanucleus.exceptions.NucleusUserException: The connection ...
- Hive(十三)【Hive on Spark 部署搭建】
Hive on Spark 官网详情:https://cwiki.apache.org//confluence/display/Hive/Hive+on+Spark:+Getting+Started ...
随机推荐
- Coursera课程笔记----Write Professional Emails in English----Week 4
Request and Apology Emails(Week 4) How to Write Request Emails Write more POLITELY & SINCERELUY ...
- Coursera课程笔记----P4E.Capstone----Week 2&3
Building a Search Engine(week 2&3) Search Engine Architecture Web Crawling Index Building Search ...
- webpack 和 webpack-cli 安装和使用中出现的问题
因为国内防火墙的原因,建议首先安装 cnpm: 使用 npm install cnpm -g 或者 npm install -g cnpm --registry=https://registry.np ...
- 【MySQL基础总结】索引的使用
索引的使用 概述 1.索引由数据库中一列或多列组合而成,其作用是提高对表中数据的查询速度 2.索引的优点是可以提高检索数据的速度 3.缺点是创建和维护索引需要耗费时间 4.所以索引可以提高查询速度,减 ...
- 栈溢出(Stack Overflow)
调用栈(Call Stack)描述的时函数之间的调用关系.它由多个栈帧(Stack Frame)组成,每个栈帧对应着一个未运行完的函数.栈帧中保存了该函数的返回地址和局部变量,因而不能再执行完毕后找到 ...
- vue 在main.js里使用vue实例
可以用 Vue.prototype 比如 Vue.prototype.$indicator.close(); 关闭正在加载的动画
- Jetson AGX Xavier/Ubuntu安装SSD
参考 https://blog.csdn.net/xingdou520/article/details/84309155 1. 查看硬盘所有分区 sudo fdisk -lu 会找到/dev/nvme ...
- 【漫画】互斥锁ReentrantLock不好用?试试读写锁ReadWriteLock
ReentrantLock完美实现了互斥,完美解决了并发问题.但是却意外发现它对于读多写少的场景效率实在不行.此时ReentrantReadWriteLock来救场了!一种适用于读多写少场景的锁,可以 ...
- c++内存管理学习纲要
本系列文章,主要是学习c++内存管理这一块的学习笔记. 时间:6.7-21 之下以技术内幕的开头语,带入到学习C++内存管理的技术中吧: 内存管理是C++最令人切齿痛恨的问题,也是C++最有争议的问题 ...
- An invalid domain [.test.com] was specified for this cookie 原因分析
java.lang.IllegalArgumentException: An invalid domain [.test.com] was specified for this cookie 以上博客 ...