【HIVE & Spark】将hive引擎换成Spark,运行速度快!怎么换?请看本文
本教程仅仅是使用spark,能在hive用就行。
1.下载Spark;
2.WinSCP上传spark压缩包到虚拟机;
3.tar -zxvf spark-2.3.3-bin-without-hadoop -C /opt/programs/
4.
1)配置Spark环境变量;
2)配置spark-env.sh 命令cp spark-env.sh.template spark-env.sh后vi spark-env.sh
末尾加上:
export JAVA_HOME=/usr/java/jdk1.8.0_25
export SPARK_DIST_CLASSPATH=$(/opt/programs/hadoop-2.6.0/bin/hadoop classpath)
// /opt/programs/hadoop-2.6.0/bin/hadoopg改成自己的路径
3)配置slaves
hadoop1
hadoop2
hadoop3
4)将Spark相关文件,连接到$HIVE_HOME/lib中
3个包:
scala-library-2.11.8.jar
spark-core_2.11-2.3.3.jar
spark-network-common_2.11-2.3.3.jar
ln -snf /opt/programs/spark-2.3.3/jars/spark-core_2.11-2.3.3.jar /opt/programs/hive-2.3.5/lib/spark-core_2.11-2.3.3.jar
配置成功的结果:
[root@hadoop1 conf]# ll /opt/programs/hive-2.3.5/lib/ | grep spark
lrwxrwxrwx. 1 root root 55 Sep 12 22:26 scala-library-2.11.8.jar -> /opt/programs/spark-2.3.3/jars/scala-library-2.11.8.jar
lrwxrwxrwx. 1 root root 56 Sep 12 22:27 spark-core_2.11-2.3.3.jar -> /opt/programs/spark-2.3.3/jars/spark-core_2.11-2.3.3.jar
lrwxrwxrwx. 1 root root 66 Sep 12 22:27 spark-network-common_2.11-2.3.3.jar -> /opt/programs/spark-2.3.3/jars/spark-network-common_2.11-2.3.3.jar
5)配置hive执行引擎
- 在配置文件里面配置;
<property>
<name>hive.execution.engine</name>
<value>spark</value>
</property>
- 在beeline配置,只在当前session有效;
//在beeline里
set hive.execution.engine=spark;
【HIVE & Spark】将hive引擎换成Spark,运行速度快!怎么换?请看本文的更多相关文章
- 大数据核心知识点:Hbase、Spark、Hive、MapReduce概念理解,特点及机制
今天,上海尚学堂大数据培训班毕业的一位学生去参加易普软件公司面试,应聘的职位是大数据开发.面试官问了他10个问题,主要集中在Hbase.Spark.Hive和MapReduce上,基础概念.特点.应用 ...
- Hive扩展功能(七)--Hive On Spark
软件环境: linux系统: CentOS6.7 Hadoop版本: 2.6.5 zookeeper版本: 3.4.8 主机配置: 一共m1, m2, m3这五部机, 每部主机的用户名都为centos ...
- SparkSQL & Spark on Hive & Hive on Spark
刚开始接触Spark被Hive在Spark中的作用搞得云里雾里,这里简要介绍下,备忘. 参考:https://blog.csdn.net/zuochang_liu/article/details/82 ...
- Hive架构及Hive On Spark
Hive的所有数据都存在HDFS中. (1)Table:每个表都对应在HDFS中的目录下,数据是经过序列化后存储在该目录中.同时Hive也支持表中的数据存储在其他类型的文件系统中,如NFS或本地文件系 ...
- Spark 操作Hive 流程
1.ubuntu 装mysql 2.进入mysql: 3.mysql>create database hive (这个将来是存 你在Hive中建的数据库以及表的信息的(也就是元数据))mysql ...
- spark sql/hive小文件问题
针对hive on mapreduce 1:我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并: 参数详细内容可参考官网:https://cwiki.apache.org/conflue ...
- 小记---------spark组件与其他组件的比较 spark/mapreduce ;spark sql/hive ; spark streaming/storm
Spark与Hadoop的对比 Scala是Spark的主要编程语言,但Spark还支持Java.Python.R作为编程语言 Hadoop的编程语言是Java
- Spark链接hive时 “HikariCP” 问题
IDE本地调试和spark-shell调试报错: Caused by: org.datanucleus.exceptions.NucleusUserException: The connection ...
- Hive(十三)【Hive on Spark 部署搭建】
Hive on Spark 官网详情:https://cwiki.apache.org//confluence/display/Hive/Hive+on+Spark:+Getting+Started ...
随机推荐
- 【Hadoop离线基础总结】oozie任务串联
目录 需求 1.准备工作目录 2.准备调度文件 3.开发调度的配置文件 4.上传资源文件夹到hdfs对应路径 5.执行调度任务 需求 执行shell脚本 → 执行MR程序 → 执行hive程序 1.准 ...
- STM32 CubeIDE无法进行调试的问题
解决了由于一个很容易忽视的细节最终导致系统配置存在错误造成STM32 CubeIDE无法进行调试的问题: 文章目录 来龙去脉 解决方案 反思 来龙去脉 在享受CubeIDE快速和便捷的服务之后,生成了 ...
- 【poj 2406】Power Strings 后缀数组DC3模板 【连续重复子串】
Power Strings 题意 给出一个字符串s,求s最多由几个相同的字符串重复而成(最小循环节的重复次数) 思路 之前学习KMP的时候做过. 我的思路是:枚举字符串的长度,对于当前长度k,判断\( ...
- 安装Kibana出现的问题
安装Kibana出现的问题 前言 该问题的出现是在安装配置完成之后,也就是说下载好了kibana的相关包,在启动过程中出现的错误,该错误是在centos6的机器上引发的,是因为系统中的GLIBC_2. ...
- springData表关系:一对一
一.编写两个实体类 1.一对一关系实现:a:使用外键关联 b:使用主键关联,两个表的主键相同 2.外键方案:配置关联关系:两个实体类互相关联,并且在关联的属性上添加一个@OneToOne代表一个对一个 ...
- 爬取淘宝商品信息,放到html页面展示
爬取淘宝商品信息 import pymysql import requests import re def getHTMLText(url): kv = {'cookie':'thw=cn; hng= ...
- python--字典基本操作
字典 格式 key :value # string list dict# 1.取数据方便# 2.速度快, 定义一个空字典: d = dict() 或者 d = { } infos = {'n ...
- 【Net】CEF浏览IISExpress运行Web项目
前言 本文介绍在Winform桌面应用中,使用IISExpress做Host主机,启动.Net平台的Web项目. 浏览Web网页使用CEF开源组件. 准备 首先创建Winform项目WinFormII ...
- spark机器学习从0到1机器学习工作流 (十一)
一.概念 一个典型的机器学习过程从数据收集开始,要经历多个步骤,才能得到需要的输出.这非常类似于流水线式工作,即通常会包含源数据ETL(抽取.转化.加载),数据预处理,指标提取,模型训练与交叉 ...
- 在centos8使用Docker部署Django项目
引言 在本文中将介绍在Docker中通过django + uwsgi + nginx部署方式部署Django项目, 由于记录的是学习过程,使用的都是目前较高的版本. python 版本为3.8.3 d ...