Spark SQL概念学习系列之分布式SQL引擎

　　不多说，直接上干货！

parkSQL作为分布式查询引擎：两种方式

　　除了在Spark程序里使用Spark SQL，我们也可以把Spark SQL当作一个分布式查询引擎来使用，有以下两种使用方式：

　　1.Thrift JDBC/ODBC服务

　　2.CLI

SparkSQL作为分布式查询引擎：Thrift JDBC/ODBC服务

　　Thrift JDBC/ODBC服务与Hive 1.2.1中的HiveServer2一致

　　启动JDBC/ODBC服务：

　　./sbin/start-thriftserver.sh

　　sbin/start-thriftserver.sh命令接收所有 bin/spark-submit 命令行参数，添加一个 --hiveconf 参数来指定Hive的属性。详细的参数说明请执行命令　　./sbin/start-thriftserver.sh --help 。

　　服务默认监听端口为localhost:10000。有两种方式修改默认监听端口：

　　修改环境变量：

　　　　export HIVE_SERVER2_THRIFT_PORT=

　　　　export HIVE_SERVER2_THRIFT_BIND_HOST=

　　　　./sbin/start-thriftserver.sh \

　　　　--master \

　　　　...

SparkSQL作为分布式查询引擎：Thrift JDBC/ODBC服务

　　Thrift JDBC/ODBC服务默认监听端口为localhost:10000。有两种方式修改默认监听端口：

　　修改环境变量：

　　　　export HIVE_SERVER2_THRIFT_PORT=

　　　　export HIVE_SERVER2_THRIFT_BIND_HOST=

　　　　./sbin/start-thriftserver.sh \

　　　　--master \

　　　　...

　　修改系统属性：

　　　　./sbin/start-thriftserver.sh \

　　　　--hiveconf hive.server2.thrift.port= \

　　　　--hiveconf hive.server2.thrift.bind.host= \

　　　　--master

　　　　...

　　SparkSQL作为分布式查询引擎： beeline

　　使用 beeline 来测试Thrift JDBC/ODBC服务：

　　　　./bin/beeline

　　连接到Thrift JDBC/ODBC服务：

　　　　beeline> !connect jdbc:hive2://localhost:10000

　　连接Hive需要拷贝hive-site.xml、core-site.xml、hdfs-site.xml到Spark 的./conf/ 目录。

　　SparkSQL作为分布式查询引擎： Spark SQL CLI

　　Spark SQL CLI是一个方便的工具，以本地模式运行Hive的metastore服务和执行从命令行输入查询语句。

　　Spark SQL CLI不能与Thrift JDBC server交互。

　　连接Hive需要拷贝hive-site.xml、core-site.xml、hdfs-site.xml到Spark 的./conf/ 目录。

Spark SQL概念学习系列之分布式SQL引擎的更多相关文章

Spark SQL概念学习系列之Spark SQL概述
很多人一个误区,Spark SQL重点不是在SQL啊,而是在结构化数据处理! Spark SQL结构化数据处理概要: 01 Spark SQL概述 02 Spark SQL基本原理 03 Spark ...
Spark入门实战系列--10.分布式内存文件系统Tachyon介绍及安装部署
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Tachyon介绍 1.1 Tachyon简介随着实时计算的需求日益增多,分布式内存计算 ...
Zookeeper概念学习系列之分布式事务
不多说,直接上干货! 初学者来说,肯定会有这么一个疑问.为什么会在zookeeper里牵扯到分布式事务? zookeeper到底是什么? zookeeper实际上是yahoo开发的,用于分布式中一致性 ...
Spark RDD概念学习系列之为什么会引入RDD？（一）
为什么会引入RDD? 我们知道,无论是工业界还是学术界,都已经广泛使用高级集群编程模型来处理日益增长的数据,如MapReduce和Dryad.这些系统将分布式编程简化为自动提供位置感知性调度. ...
Spark SQL概念学习系列之Spark SQL 优化策略（五）
查询优化是传统数据库中最为重要的一环,这项技术在传统数据库中已经很成熟.除了查询优化, Spark SQL 在存储上也进行了优化,从以下几点查看 Spark SQL 的一些优化策略. (1)内存列式存 ...
Spark SQL概念学习系列之Spark SQL 架构分析（四）
Spark SQL 与传统 DBMS 的查询优化器 + 执行器的架构较为类似,只不过其执行器是在分布式环境中实现,并采用的 Spark 作为执行引擎. Spark SQL 的查询优化是Catalyst ...
Spark SQL概念学习系列之SQL on Spark的简介（三）
AMPLab 将大数据分析负载分为三大类型:批量数据处理.交互式查询.实时流处理.而其中很重要的一环便是交互式查询. 大数据分析栈中需要满足用户 ad-hoc.reporting. iterative ...
Spark SQL概念学习系列之Spark SQL的简介（一）
Spark SQL提供在大数据上的SQL查询功能,类似于Shark在整个生态系统的角色,它们可以统称为SQL on Spark. 之前,Shark的查询编译和优化器依赖于Hive,使得Shark不得不 ...
Spark SQL概念学习系列之DataFrame与RDD的区别
不多说,直接上干货! DataFrame的推出,让Spark具备了处理大规模结构化数据的能力,不仅比原有的RDD转化方式更加简单易用,而且获得了更高的计算性能.Spark能够轻松实现从MySQL到Da ...

随机推荐

hdu3572Task Schedule 最大流，判断满流优化的SAP算法
PS:多校联赛的题目质量还是挺高的.建图不会啊,看了题解才会的. 参考博客:http://blog.csdn.net/luyuncheng/article/details/7944417 看了上面博客 ...
offset() 方法文档偏移量
以前看视频学习听到这个offset()感觉很陌生,没有用过,马上记到笔记里了,今天翻起笔记再次看到,都已经忘记是怎么用的了,所以来到这里狠狠的记下来: offset() 方法返回得或设置元素相对于文档 ...
C# 重命名文件方法
. //重命名文件 // 改名方法 FileInfo fi = new FileInfo("旧路径"); //xx/xx/aa.rar fi.MoveTo("新路径&qu ...
Pycharm 4.5.4 for ubuntu 16.04 下载与安装教程
首先,我们需要有一台已经安装好 ubuntu 16.04 的操作系统,并且配置好java环境: 方法1: 默认安装 apt-get install default-jdk -y # 安装官网最新的ja ...
java 常用API 包装
package com.oracel.demo01; public class Baozhuang { //将字符串转成基本数据类型 public static void main(String[] ...
JTextArea+JScrollPane滚动条自动在最下边(转帖)
这是我制作五子棋的过程中遇到的问题,在网上搜了好几种答案,分别列在下面了.不过感觉第一种相当方便.用得简洁,爽! 1. 利用JTextArea的selectAll();方法在添加信息之后强制将光标移动 ...
nyoj254-编号统计
编号统计时间限制:2000 ms | 内存限制:65535 KB 难度:2 描述 zyc最近比较无聊,于是他想去做一次无聊的统计一下.他把全校同学的地址都统计了一下(zyc都将地址转化成了编码) ...
grep的各种用法
1. 在文件中查找模式(单词) 在/etc/passwd文件中查找单词 root [root@localhost opt]# grep root /etc/passwdroot:x:0:0:root: ...
搞定PHP面试 - 运算符知识点整理
一.算术运算符 1. 概览例子名称结果 $a + $b 加法 $a 和 $b 的和. $a - $b 减法 $a 和 $b 的差. $a * $b 乘法 $a 和 $b 的积. $a / $b ...
omap 移植qt4.7.0
准备: 1.Qt源码包 qt-everywhere-opensource-src-4.7.0.tar.gz 2.交叉编译器 arm-eabi-4.4.0.tar.bz2 3.触摸屏校验工具:tslib ...

Spark SQL概念学习系列之分布式SQL引擎

Spark SQL概念学习系列之分布式SQL引擎的更多相关文章

随机推荐

热门专题