大数据入门第二十三天——SparkSQL（二）结合hive

一、SparkSQL结合hive

　　1.首先通过官网查看与hive匹配的版本

　　　　这里可以看到是1.2.1

　　2.与hive结合

　　spark可以通过读取hive的元数据来兼容hive，读取hive的表数据，然后在spark引擎中进行sql统计分析，从而，通过sparksql与hive结合实现数据分析将成为一种最佳实践。

　　3.hive安装与配置

　　　　略，之前已经安装

　　4.spark配置

　　　　将hive配置文件拷贝给spark：

cp $HIVE_HOME/conf/hive-site.xml $SPARK_HOME/conf/

　　　　// 这里记得配置一下SPARK_HOME等！

　　　　将MySQL驱动拷贝给spark：

cp $HIVE_HOME/lib/mysql-connector-java-5.1.42.jar $SPARK_HOME/lib/

　　　　// hive不是分布式的，只有一台机器

　　　　启动发现频繁报错，找到解决办法：https://www.cnblogs.com/bianqi/p/7244036.html

2. 在$SPARK_HOME/conf/目录中，修改spark-env.sh，添加
export HIVE_HOME=/usr/local/apache-hive-0.13.1-bin

注:切记SPARK_CLASSPATH这一行必须的配置:（否则报错）
export SPARK_CLASSPATH=$HIVE_HOME/lib/mysql-connector-java-5.1.15-bin.jar:$SPARK_CLASSPATH

　　也就是在spark-env.sh中添加如下配置：

export HIVE_HOME=/home/hadoop/apps/hive-1.2.1

export SPARK_CLASSPATH=$HIVE_HOME/lib/mysql-connector-java-5.1.42.jar:$SPARK_CLASSPATH

　　　5.启动

　　　　可以以spark-shell的方式启动，然后通过sqlContext.sql等方式执行

　　　　也可以直接启动spark-sql，更简单直接

大数据入门第二十三天——SparkSQL（二）结合hive的更多相关文章

大数据入门第二十三天——SparkSQL（一）入门与使用
一.概述 1.什么是sparkSQL 根据官网的解释: Spark SQL is a Spark module for structured data processing. 也就是说,sparkSQ ...
大数据入门第二十二天——spark（二）RDD算子（1）
一.RDD概述 1.什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算的 ...
大数据入门第二十二天——spark（二）RDD算子（2）与spark其它特性
一.JdbcRDD与关系型数据库交互虽然略显鸡肋,但这里还是记录一下(点开JdbcRDD可以看到限制比较死,基本是鸡肋.但好在我们可以通过自定义的JdbcRDD来帮助我们完成与关系型数据库的交互.这 ...
大数据入门第二十二天——spark（一）入门与安装
一.概述 1.什么是spark 从官网http://spark.apache.org/可以得知: Apache Spark™ is a fast and general engine for larg ...
大数据入门第二十五天——elasticsearch入门
一.概述推荐路神的ES权威指南翻译:https://es.xiaoleilu.com/010_Intro/00_README.html 官网:https://www.elastic.co/cn/pr ...
大数据入门第二十四天——SparkStreaming（二）与flume、kafka整合
前一篇中数据源采用的是从一个socket中拿数据,有点属于“旁门左道”,正经的是从kafka等消息队列中拿数据! 主要支持的source,由官网得知如下: 获取数据的形式包括推送push和拉取pull ...
大数据入门第二十五天——logstash入门
一.概述 1.logstash是什么根据官网介绍: Logstash 是开源的服务器端数据处理管道,能够同时从多个来源采集数据.转换数据,然后将数据发送到您最喜欢的 “存储库” 中.(我们的存储库 ...
大数据入门第二十二天——spark（三）自定义分区、排序与查找
一.自定义分区 1.概述默认的是Hash的分区策略,这点和Hadoop是类似的,具体的分区介绍,参见:https://blog.csdn.net/high2011/article/details/6 ...
大数据入门第二天——基础部分之zookeeper（下）
一.集群自启动脚本 1.关闭zk [root@localhost bin]# jps Jps QuorumPeerMain [root@localhost bin]# //kill或者stop都是可以 ...

随机推荐

如何解决Your project contains C++ files but it is not using a supported native build system
最近因为项目需要下载Android终端模拟器(Android-Terminal-Emulator)源码进行调试编译,编译过程中出现报错 Error:Execution failed for task ...
Python笔记（十三）：urllib模块
(一) URL地址 URL地址组件 URL组件说明 scheme 网络协议或下载方案 net_loc 服务器所在地(也许含有用户信息) path 使用(/)分割的文件或CGI应用的路径 p ...
mysql index hint 在index不存在时的处理
关于index_hint 在mysql查询语句中可以通过指定index_hint来告诉优化器如何使用索引,详细可以参考这里 index_hint: USE {INDEX|KEY} [FOR {JOIN ...
Oracle EBS OPM 查询现有量
--查询现有量 --created by jenrry DECLARE p_inventory_item_id NUMBER := 231652; --NOT NULL p_organization_ ...
Linux搭建kafka
一.安装Java 1.查看linux 的系统版本 root@aliyun:~# uname --m x86_64 2.安装java mkdir -p /usr/local/java tar -xf j ...
MySQL报错：error1130
ERROR (HY000): Host 'ip-172-31-x-x.ec2.internal' is not allowed to connect to this MySQL server 分析,从 ...
[Python3]subprocess.check_output() 在python3的输出为bytes而非string，在实际使用过程中得增加一个解码过程decode()，不然会有问题
按以往python2的习惯编码输出报错 #-*- coding:utf-8 -*- ''' Created on 2018年7月21日 @author: lenovo ''' import os im ...
6.基本数据结构-双端队列（Deque）
一.双端队列(Deque) - 概念:deque(也称为双端队列)是与队列类似的项的有序集合.它有两个端部,首部和尾部,并且项在集合中保持不变. - 特性:deque 特殊之处在于添加和删除项是非限制 ...
使用let声明变量的理解
先看阮大神的[ECMAScript 6 入门]中关于这一部分的描述 var a = []; for (let i = 0; i < 10; i++) { a[i] = function () { ...
P4279 [SHOI2008]小约翰的游戏
嘟嘟嘟一道博弈论经典题,nim游戏. 只不过要考虑有奇数个石子为1的堆的时候,为Brother赢.剩下就是nim游戏了. 极简代码 #include<cstdio> using name ...

大数据入门第二十三天——SparkSQL（二）结合hive

一、SparkSQL结合hive

大数据入门第二十三天——SparkSQL（二）结合hive的更多相关文章

随机推荐

热门专题