不多说,直接上干货!

parkSQL作为分布式查询引擎:两种方式

  除了在Spark程序里使用Spark SQL,我们也可以把Spark SQL当作一个分布式查询引擎来使用,有以下两种使用方式:

  1.Thrift JDBC/ODBC服务

  2.CLI

SparkSQL作为分布式查询引擎:Thrift JDBC/ODBC服务

  Thrift JDBC/ODBC服务与Hive 1.2.1中的HiveServer2一致

  启动JDBC/ODBC服务:

  ./sbin/start-thriftserver.sh

  sbin/start-thriftserver.sh命令接收所有 bin/spark-submit 命令行参数,添加一个 --hiveconf 参数来指定Hive的属性。详细的参数说明请执行命令   ./sbin/start-thriftserver.sh --help 。

  服务默认监听端口为localhost:10000。有两种方式修改默认监听端口:

  修改环境变量:

    export HIVE_SERVER2_THRIFT_PORT=

    export HIVE_SERVER2_THRIFT_BIND_HOST=

    ./sbin/start-thriftserver.sh \

    --master \

    ...

SparkSQL作为分布式查询引擎:Thrift JDBC/ODBC服务

  Thrift JDBC/ODBC服务默认监听端口为localhost:10000。有两种方式修改默认监听端口:

  修改环境变量:

    export HIVE_SERVER2_THRIFT_PORT=

    export HIVE_SERVER2_THRIFT_BIND_HOST=

    ./sbin/start-thriftserver.sh \

    --master \

    ...

  修改系统属性:

    ./sbin/start-thriftserver.sh \

    --hiveconf hive.server2.thrift.port= \

    --hiveconf hive.server2.thrift.bind.host= \

    --master

    ...

  SparkSQL作为分布式查询引擎: beeline

  使用 beeline 来测试Thrift JDBC/ODBC服务:

    ./bin/beeline

  连接到Thrift JDBC/ODBC服务:

    beeline> !connect jdbc:hive2://localhost:10000

  连接Hive需要拷贝hive-site.xml、core-site.xml、hdfs-site.xml到Spark 的./conf/ 目录。

  SparkSQL作为分布式查询引擎: Spark SQL CLI

  Spark SQL CLI是一个方便的工具,以本地模式运行Hive的metastore服务和执行从命令行输入查询语句。

  Spark SQL CLI不能与Thrift JDBC server交互。

  连接Hive需要拷贝hive-site.xml、core-site.xml、hdfs-site.xml到Spark 的./conf/ 目录。

Spark SQL概念学习系列之分布式SQL引擎的更多相关文章

  1. Spark SQL概念学习系列之Spark SQL概述

    很多人一个误区,Spark SQL重点不是在SQL啊,而是在结构化数据处理! Spark SQL结构化数据处理 概要: 01 Spark SQL概述 02 Spark SQL基本原理 03 Spark ...

  2. Spark入门实战系列--10.分布式内存文件系统Tachyon介绍及安装部署

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .Tachyon介绍 1.1 Tachyon简介 随着实时计算的需求日益增多,分布式内存计算 ...

  3. Zookeeper概念学习系列之分布式事务

    不多说,直接上干货! 初学者来说,肯定会有这么一个疑问.为什么会在zookeeper里牵扯到分布式事务? zookeeper到底是什么? zookeeper实际上是yahoo开发的,用于分布式中一致性 ...

  4. Spark RDD概念学习系列之为什么会引入RDD?(一)

        为什么会引入RDD? 我们知道,无论是工业界还是学术界,都已经广泛使用高级集群编程模型来处理日益增长的数据,如MapReduce和Dryad.这些系统将分布式编程简化为自动提供位置感知性调度. ...

  5. Spark SQL概念学习系列之Spark SQL 优化策略(五)

    查询优化是传统数据库中最为重要的一环,这项技术在传统数据库中已经很成熟.除了查询优化, Spark SQL 在存储上也进行了优化,从以下几点查看 Spark SQL 的一些优化策略. (1)内存列式存 ...

  6. Spark SQL概念学习系列之Spark SQL 架构分析(四)

    Spark SQL 与传统 DBMS 的查询优化器 + 执行器的架构较为类似,只不过其执行器是在分布式环境中实现,并采用的 Spark 作为执行引擎. Spark SQL 的查询优化是Catalyst ...

  7. Spark SQL概念学习系列之SQL on Spark的简介(三)

    AMPLab 将大数据分析负载分为三大类型:批量数据处理.交互式查询.实时流处理.而其中很重要的一环便是交互式查询. 大数据分析栈中需要满足用户 ad-hoc.reporting. iterative ...

  8. Spark SQL概念学习系列之Spark SQL的简介(一)

    Spark SQL提供在大数据上的SQL查询功能,类似于Shark在整个生态系统的角色,它们可以统称为SQL on Spark. 之前,Shark的查询编译和优化器依赖于Hive,使得Shark不得不 ...

  9. Spark SQL概念学习系列之DataFrame与RDD的区别

    不多说,直接上干货! DataFrame的推出,让Spark具备了处理大规模结构化数据的能力,不仅比原有的RDD转化方式更加简单易用,而且获得了更高的计算性能.Spark能够轻松实现从MySQL到Da ...

随机推荐

  1. (转)es6用法

    如何在浏览器中使用es6的语法呢? 方法一:引入文件相关js文件 <script src="traceur.js"></script> <script ...

  2. hdu 2444 The Accomodation of Students 判断是否构成二分图 + 最大匹配

    此题就是求最大匹配.不过需要判断是否构成二分图.判断的方法是人选一点标记为红色(0),与它相邻的点标记为黑色(1),产生矛盾就无法构成二分图.声明一个vis[],初始化为-1.通过深搜,相邻的点不满足 ...

  3. sql server restore DB issue

    error occurs when restoring the backup file of sql server(DB.bak) to run the above t-sql will shoot ...

  4. HashMap以及ConcurrentHashMap

    HashMap源码相关 HashMap实现原理及源码分析 总之就是这个博客,简直就是源码带逛,开心,最关键的是下面的图像 另外,自己的理解加上源码,总结如下 hash,原义散列,就是一对一: hash ...

  5. a rel=noopener

    看vue-element-admin的源码的时候,看到a 标签使用  rel=noopener: 然后就很奇怪这个是干什么用的:然后百度到一篇文章,涨知识了. 个人的理解是:不加 rel=noopen ...

  6. 优动漫PAINT(clip studio paint)提示无法连接服务器

    很多同学在使用优动漫PAINT进行艺术创作的时候,软件会出现无法连接服务器的提示,遇到此情况如何解决呢?目前,软件在Windows系统和Mac系统上的解决方法有别,请悉知: 1.曾使用过,或正在使用F ...

  7. 路飞学城Python-Day100

    Django项目之图书馆项目 1.项目架构 2.表结构设计 from django.db import models # Create your models here. #作者详情表 class A ...

  8. C#学习 第九节

    构造器 1.构造器(constructor)是类型的成员之一: 2.狭义的构造器是指“实例构造器”(instance constructor): 3.构造器的调用 student stu =new s ...

  9. elasticsearch聚合函数

    计算每个tag下的商品数量 GET /ecommerce/product/_search { "aggs": {  //聚合 "group_by_tags": ...

  10. NTP学习路线

    NTP了解路线 基础 ntp配置中的tinker参数? ntp的同步方式slew step的区别? restrict含义?restrict -6 default ignore含义? fudge 127 ...