Dream------hive on spark

一、Hive on Spark是Hive跑在Spark上，用的是Spark执行引擎，而不是MapReduce，和Hive on Tez的道理一样。

并且用的是$HIVE_HOME/bin/hive，liunx命令运行客户端

这个时候需要下载spark的源码并且要重新编译，一个不支持hive的版本。

步骤：
1、下载spark1.4.1的源码
https://github.com/apache/spark/tree/v1.4.1

并解压

2、使用编译命令：
./make-distribution.sh --name "hadoop-2.6.0" --tgz "-Dyarn.version=2.6.0 -Dhadoop.version=2.6.0 -Pyarn"

3、配置spark-env.sh文件

export JAVA_HOME=/usr/local/soft/jdk1.7.0

#export SPARK_MASTER_IP=hadoop-spark01

export SPARK_MASTER_WEBUI_PORT=8099

#export SPARK_MASTER_IP=localhost

export SPARK_MASTER_PORT=7077

export SPARK_WORKER_CORES=2

export SPARK_WORKER_INSTANCES=2

export SPARK_WORKER_MEMORY=1g

#export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=FILESYSTEM -Dspark.deploy.recoveryDirectory=/nfs/spark/recovery"

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=hadoop-spark01:2181,hadoop-spark02:2181,hadoop-spark03:2181 -Dspark.deploy.zookeeper.dir=/home/data/spark/zkdir" （这是spark的HA配置）

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

export HIVE_CONF_DIR=$HIVE_HOME/conf

export SPARK_HOME=/usr/local/soft/spark-1.4.1-bin-hadoop-2.6.0

export SPARK_CLASSPATH=/usr/local/soft/sparkclasspath/mysql-connector-java-5.1.38-bin.jar:/usr/local/soft/sparkclasspath/hiv

e-hbase-handler-1.2.1.jar:/usr/local/soft/sparkclasspath/hbase-common-1.1.2.jar:/usr/local/soft/sparkclasspath/hbase-client-1.1.2.jar:/usr/local/soft/sparkclasspath/hbase-protocol-1.1.2.jar:/usr/local/soft/sparkclasspath/hbase-server-1.1.2.jar:/usr/local/soft/sparkclasspath/protobuf-java-2.5.0.jar:/usr/local/soft/sparkclasspath/htrace-core-3.1.0-incubating.jar:/usr/local/soft/sparkclasspath/guava-12.0.1.jar:/usr/local/soft/sparkclasspath/hive-exec-1.2.1.jar

#export SPARK_LIBRARY_PATH=/usr/local/soft/hbase-1.1.2/lib

export SPARK_JAR=/usr/local/soft/spark-1.4.1-bin-hadoop-2.6.0/lib/spark-assembly-1.4.1-hadoop2.6.0.jar

export PATH=$SPARK_HOME/bin:$PATH

4、将spark-assembly-1.4.1-hadoop2.6.0.jar包，拷贝到$HIVE_HOME/lib目录下

5、修改hive-site.xml

<property>

<name>hive.metastore.uris</name>

<value>thrift://hadoop-spark01:9083</value>

<description>Thrift URI forthe remote metastore. Used by metastore client to connect to remote metastore.</description>

</property>

<property>

<name>hive.server2.thrift.min.worker.threads</name>

<value>5</value>

<description>Minimum number of Thrift worker threads</description>

</property>

<property>

<name>hive.server2.thrift.max.worker.threads</name>

<value>500</value>

<description>Maximum number of Thrift worker threads</description>

</property>

<property>

<name>hive.server2.thrift.port</name>

<value>10000</value>

<description>Port number of HiveServer2 Thrift interface. Can be overridden by setting $HIVE_SERVER2_THRIFT_PORT</description>

</property>

<property>

<name>hive.server2.thrift.bind.host</name>

<value>hadoop-spark01</value>

<description>Bind host on which to run the HiveServer2 Thrift interface.Can be overridden by setting$HIVE_SERVER2_THRIFT_BIND_HOST</description>

</property>

<name>spark.serializer</name>

<value>org.apache.spark.serializer.KryoSerializer</value>

</property>

<name>spark.eventLog.enabled</name>

</property>

<name>spark.eventLog.dir</name>

<value>hdfs://founder/sparklog/logs</value>

</property>

<name>spark.master</name>

<value>spark://hadoop-spark01:7077,hadoop-spark02:7077</value>

</property>

还有这些参数也要配置上

1、hive.exec.local.scratchdir

/opt/hive-1.2/tmp

2、hive.downloaded.resources.dir

/opt/hive-1.2/resources

配置Mysql数据库

1、javax.jdo.option.ConnectionPassword

123456

2、javax.jdo.option.ConnectionURL

jdbc:mysql://hadoop-spark01:3306/hive_db

3、javax.jdo.option.ConnectionDriverName

com.mysql.jdbc.Driver

4、javax.jdo.option.ConnectionUserName

root

6、启动

启动spark

./start-all.sh

在backup-master节点上

./start-master

启动hive

./hive

------------------------------------------------------------------------------------------------------------------------------------------------------

二、使用beeline连接，这个比较使用，因为可以使用jdbc让客户端连接

首先特么的这个是不用重新编译spark的源码的，他需要支持hive

1、启动spark

2、启动thriftserver

cd $SPARK_HOME/sbin

./start-thriftserver.sh --master spark://hadoop-spark01:7077 --executor-memory 1g

3、启动hive metastore

hive --service metastore > metastore.log 2>&1 &

使用beeline连接

[root@hadoop-spark01 logs]# beeline

beeline> !connect jdbc:hive2://hadoop-spark01:10000

0: jdbc:hive2://hadoop-spark01:10000> select count(*) from t_trackinfo;

+------+--+

| _c0 |

+------+--+

| 188 |

+------+--+

1 row selected (16.738 seconds)

需要注意的几点：

1、我的hive中的数据是从hbase同步过来的。

2、不需要从新编译hive源码。直接从apache官网上下载就可以了。

3、一般使用的都是thriftserver2这种方式，通过客户端程序通过jdbc操作hive。所以不用编译源码，做好相应的配置就可以了。

这些配置已经过时，并且写在spark-defaults.conf文件里面，就可以了

SPARK_CLASSPATH was detected (set to '/usr/local/soft/sparkclasspath/mysql-connector-java-5.1.38-bin.jar:/usr/local/soft/sparkcla

sspath/hive-hbase-handler-1.2.1.jar:/usr/local/soft/sparkclasspath/hbase-common-1.1.2.jar:/usr/local/soft/sparkclasspath/hbase-client-1.1.2.jar:/usr/local/soft/sparkclasspath/hbase-protocol-1.1.2.jar:/usr/local/soft/sparkclasspath/hbase-server-1.1.2.jar:/usr/local/soft/sparkclasspath/protobuf-java-2.5.0.jar:/usr/local/soft/sparkclasspath/htrace-core-3.1.0-incubating.jar:/usr/local/soft/sparkclasspath/guava-12.0.1.jar:/usr/local/soft/sparkclasspath/hive-exec-1.2.1.jar').This is deprecated in Spark 1.0+.

Please instead use:

- ./spark-submit with --driver-class-path to augment the driver classpath

- spark.executor.extraClassPath to augment the executor classpath

SPARK_WORKER_INSTANCES was detected (set to '2').

This is deprecated in Spark 1.0+.

Please instead use:

- ./spark-submit with --num-executors to specify the number of executors

- Or set SPARK_EXECUTOR_INSTANCES

- spark.executor.instances to configure the number of instances in the spark config.

Dream------hive on spark的更多相关文章

Hive on Spark安装配置详解（都是坑啊）
个人主页:http://www.linbingdong.com 简书地址:http://www.jianshu.com/p/a7f75b868568 简介本文主要记录如何安装配置Hive on Sp ...
Hive On Spark概述
Hive现有支持的执行引擎有mr和tez,默认的执行引擎是mr,Hive On Spark的目的是添加一个spark的执行引擎,让hive能跑在spark之上: 在执行hive ql脚本之前指定执行引 ...
Hive On Spark环境搭建
Spark源码编译与环境搭建 Note that you must have a version of Spark which does not include the Hive jars; Spar ...
Apache Spark源码走读之12 -- Hive on Spark运行环境搭建
欢迎转载,转载请注明出处,徽沪一郎. 楔子 Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于H ...
Hive on Spark运行环境搭建
Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析.由于这一特性而收 ...
Hive On Spark和SparkSQL
SparkSQL和Hive On Spark都是在Spark上实现SQL的解决方案.Spark早先有Shark项目用来实现SQL层,不过后来推翻重做了,就变成了SparkSQL.这是Spark官方Da ...
基于CDH 5.9.1 搭建 Hive on Spark 及相关配置和调优
Hive默认使用的计算框架是MapReduce,在我们使用Hive的时候通过写SQL语句,Hive会自动将SQL语句转化成MapReduce作业去执行,但是MapReduce的执行速度远差与Spark ...
大数据学习系列之九---- Hive整合Spark和HBase以及相关测试
前言在之前的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建中介绍了集群的环境搭建,但是在使用hive进行数据查询的时候会非常的慢,因为h ...
大数据技术生态圈形象比喻（Hadoop、Hive、Spark 关系）
[摘要] 知乎上一篇很不错的科普文章,介绍大数据技术生态圈(Hadoop.Hive.Spark )的关系. 链接地址:https://www.zhihu.com/question/27974418 [ ...
hive on spark
hive on spark 的配置及设置CDH都已配置好,直接使用就行,但是我在用的时候报错,如下: 具体操作如下时报的错: 在hive 里执行以下命令: set hive.exec ...

随机推荐

Vim操作指南
vim具有6种基本模式和5种派生模式. 基本模式普通模式插入模式可视模式选择模式命令行模式 Ex模式派生模式操作符等待模式插入普通模式插入可视模式插入选择模式替换模式 1.移动光 ...
将搬家至CSDN
emmm,感觉没利用好博客,自己也弄了一个github上面的hexo博客https://clarkkun.github.io/,但是死活传不上去内容,尴尬￣□￣||,三个博客齐头并进吧
记初学net-SNMP
自从弄完那个jsp的网盘(其实还是个烂摊子),这几天一直在研究snmp. 有需求就激发动力,对,人都是被逼出来的.五一这几天,天天搁这坐着,毫无头绪. 下面切入正题. 要做一个监控园区网在线数的平台, ...
spring-boot随笔
配置了spring-boot-starter-web的依赖后,会自动添加tomcat和spring mvc的依赖,那么spring boot 会对tomcat和spring mvc进行自动配置 < ...
第一个spring，总结！
陈志棚:界面跳转与框架李天麟:游戏界面ui 徐侃:算法代码的设计经过五天的时间,开会时候分配的任务,已经全部完成,在这期间中,我们遇到了一些问题.但是,经过android老师的指导后,app成功的 ...
数据平面可编程与SDN关系理解，以及数据平面可编程的理解
数据平面可编程与SDN关系狭义广义数据平面可编程的理解狭义广义
Spring之jdbcTemplate：增删改
JdbcTemplate增删改数据操作步骤:1.导入jar包:2.设置数据库信息:3.设置数据源:4.调用jdbcTemplate对象中的方法实现操作 package helloworld.jdbcT ...
Spring之使用表达式配置切入点
使用表达式配置切入点
asp.net使用动态模版导出word
具体思路: 1.先制作Word模版,使用文本框+书签的方式来设计模版: 2.模版制作完之后,根据模版生成新文件,使用File.Copy方法,生成.doc格式新文件: 3.后台取得数据,参照网页渲染的方 ...
MT【166】青蛙跳
(2015浙江重点中学协作体一模) 设ABCDEF为正六边形,一只青蛙开始在顶点A处,它每次可随意地跳到相邻两顶点之一．若在5次之内跳到D点,则停止跳动:若5次之内不能到达D点,则跳完5次也停止跳动． ...

Dream------hive on spark

Dream------hive on spark的更多相关文章

随机推荐

热门专题