6. Spark SQL和Beeline

*以下内容由《Spark快速大数据分析》整理所得。

读书笔记的第六部分是讲的是Spark SQL和Beeline。

Spark SQL是Spark用来操作结构化和半结构化数据的接口。

一、在应用中使用Spark SQL

二、Spark SQL UDF VS. Hive UDF

三、Beeline

一、在应用中使用Spark SQL

Spark SQL提供了一种特殊的RDD，叫作SchemaRDD。SchemaRDD是存放Row对象的RDD，每个Row对象代表一行记录。SchemaRDD还包含记录的结构信息（即数据字段）。有了SchemaRDD，我们就可以运行 SQL 查询。

在应用中使用Spark SQL：

(1) 初始化Spark SQL

# 导入Spark SQL（支持Hive）

from pyspark.sql import HiveContext, Row

# 当不能引入hive依赖时 （不支持Hive）

from pyspark.sql import SQLContext, Row

# 在 Python 中创建SQL上下文环境（支持Hive）

hiveCtx = HiveContext(sc)

# 在 Python 中创建SQL上下文环境（不支持Hive）

hiveCtx = SparkContext(sc)

(2) 基本查询

# 例子：在Python中读取并查询推文

# 读取Json文件

input = hiveCtx.jsonFile(inputFile)

# 注册输入的SchemaRDD（将上面读取得到的SchemaRDD放入临时表，应用application退出时会自动删去它）

input.registerTempTable("tweets")

# 依据retweetCount（转发计数）选出推文（执行查询）

topTweets = hiveCtx.sql("""SELECT text, retweetCount FROM tweets ORDER BY retweetCount LIMIT 10""")

在上面例子中，我们是读取了JSON文件，但我们还可以读取其它数据格式的文件，例如： hiveCtx.parquetFile(parquetFile) 。

二、Spark SQL UDF VS. Hive UDF

(1) Spark SQL UDF
使用hiveCtx.registerFunction()自定义函数。

# 例子：Python 版本耳朵字符串长度 UDF

# 写一个求字符串长度的UDF

hiveCtx.registerFunction("strLenPython", lambda x: len(x), IntegerType())

lengthSchemaRDD = hiveCtx.sql("SELECT strLenPython('text') FROM tweets LIMIT 10")

(2) Hive UDF
只需调用 hiveCtx.sql("CREATE TEMPORARY FUNCTION name AS class.function") 。

三、Beeline

Beeline是Hive 0.11版本引入的新命令行客户端工具，基于SQLline CLI的JDBC(Java Database Connectivity: Java语言中用来规范客户端程序如何访问数据库的应用程序接口)客户端。在Beeline客户端中，你可以使用标准的HiveQL命令来创建、列举以及查询数据表。Beeline shell的好处是：在多用户间共享的缓存数据表上进行快速的数据探索。

6. Spark SQL和Beeline的更多相关文章

【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...
Spark 官方文档（5）——Spark SQL，DataFrames和Datasets 指南
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完 ...
Spark SQL 官方文档-中文翻译
Spark SQL 官方文档-中文翻译 Spark版本:Spark 1.5.2 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 Data ...
Spark SQL 之 Performance Tuning & Distributed SQL Engine
Spark SQL 之 Performance Tuning & Distributed SQL Engine 转载请注明出处:http://www.cnblogs.com/BYRans/ 缓 ...
Spark SQL Thrift Server 配置 Kerberos身份认证和权限管理
转载请注明出处:http://www.cnblogs.com/xiaodf/ 之前的博客介绍了通过Kerberos + Sentry的方式实现了hive server2的身份认证和权限管理功能,本文主 ...
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession ...
大数据技术之_19_Spark学习_03_Spark SQL 应用解析 + Spark SQL 概述、解析、数据源、实战 + 执行 Spark SQL 查询 + JDBC/ODBC 服务器
第1章 Spark SQL 概述1.1 什么是 Spark SQL1.2 RDD vs DataFrames vs DataSet1.2.1 RDD1.2.2 DataFrame1.2.3 DataS ...
Spark SQL官网阅读笔记
Spark SQL是Spark中用于结构化数据处理的组件. Spark SQL可以从Hive中读取数据. 执行结果是Dataset/DataFrame. DataFrame是一个分布式数据容器.然而D ...
Spark SQL笔记
HDFS HDFS架构 1.Master(NameNode/NN) 对应 N个Slaves(DataNode/NN)2.一个文件会被拆分成多个块(Block)默认:128M例: 130M ==> ...

随机推荐

Python解析yaml配置文件
1.代码测试 import yaml fd = open('fileName.yaml', 'r') dict_tmp = yaml.load(fd) fd.close() print dict_tm ...
扫描仪扫描文件处理-富士通ix500参数
纸张太薄不要扫,非常容易卡纸当纸张薄的时候,每次不要放入太多,很容易因为层叠纸张压力导致滚动拉动单张力度过大,从而卡纸卡纸第一时间叩开"滚轮盖" 去掉"自动跳过空白页 ...
Solr6.4.2异常：org.apache.solr.common.SolrException: Error opening new searcher
版权声明:本文为博主原创文章,转载请附上原文出处链接和本声明. 原文链接:https://www.cnblogs.com/chenghu/p/13840021.html Solr版本6.4.2 启动S ...
第九章 nginx基础之搭建小游戏
一.nginx部署 1.epel源安装 [root@web01 ~]# yum install -y nginx 2.官方源安装 1.配置官方源[root@web02 ~]# vim /etc/yum ...
使用 Azure静态web应用+Github全自动部署VUE站点
什么事Azure静态web应用 Azure 静态 Web 应用是一种服务,可从 GitHub 存储库自动构建完整的堆栈 Web 应用,并将其部署到 Azure,目前它还是预览版. Azure 静态 W ...
RAM ROM区别记忆
我老是忘这个 1.概念 RAM即随机存储内存,这种存储器在断电时将丢失其存储内容,故主要用于存储短时间使用的程序.ROM即只读内存,是一种只能读出事先所存数据的固态半导体存储器. 2.对比手机中的R ...
Java基础之类型转换总结篇
Java中,经常可以遇到类型转换的场景,从变量的定义到复制.数值变量的计算到方法的参数传递.基类与派生类间的造型等,随处可见类型转换的身影.Java中的类型转换在Java编码中具有重要的作用. ...
在Linux系统中安装Chrome浏览器
前言:作为一个Web开发人员,经常与我们相伴的必然少不了浏览器,而Google旗下的chrome浏览器更是凭借着出色的性能.简洁的界面被广大开发者所喜爱,今天分享下如何在linux系统下安装chrom ...
react-native 签名
完成项目时,我们需要将项目打包成一个apk,方便测试以及发布版本. 这时,需要把js代码和图片资源都放进apk中, 并且发布版本还需要签名,今天把这一系列操作记录下来. 一.生成离线bundle包离 ...
tp3.2,php5使用PHPExcel将数据导出至Excel
安装类库从GitHub上下载PHPExcel类库地址:https://github.com/PHPOffice/PHPExcel public function checkexcel($id){ ...

6. Spark SQL和Beeline

6. Spark SQL和Beeline的更多相关文章

随机推荐

热门专题