Spark 基础之SQL 快速上手

知识点

SQL 基本概念
SQL Context 的生成和使用
1.6 版本新API：Datasets
常用 Spark SQL 数学和统计函数
SQL 语句
Spark DataFrame 文件保存

实验步骤

Spark SQL 是Spark 中用于处理结构化数据的模块。它与基本的Spark RDD API 不同的地方在于其接口提供了更多关于结构化数据的信息，能够更好地应用于计算过程。这些额外的信息也能够帮助系统进行优化，从而提高计算的性能。

这个体系中，DataFrame是非常重要的一种数据结构。在实验楼之前发布的课程中，《Spark 大讲堂之 DataFrame 详解》为你讲述了关于 DataFrame 的各方面知识。建议在此之前对 DataFrame 有所深入了解，否则你也可以将其简单理解为一个由命名列组成的分布式数据集。

我们可以通过文件、Hive表以及各类数据库或者当前环境中的RDD来创建DataFrame。这在之前的课程中已有详细的探讨，此处不再赘述。本课程主要通过SQL Context对象，以已有的RDD来创建DataFrame，大家可以在具体的代码中了解创建过程。

万物始于 SQL Context

对于整个Spark SQL 里错综复杂的功能来说，程序的入口便是 SQLContext 类（或是该类的子类）。而盆地一个 SQLContext对象，则需要SparkContext。

val sqlContext = new org.apache.spark.sql.SQLContext(sc)

新的接口: Datasets

Spark 从1.6版本起，引入了一个实验性的接口，名为Dataset。提供该接口的目的是为了在RDD的特性上，再集成SPark SQL 的一些优化操作引擎。Dataset可以由JVM对象构造，并且可以通过map、flatMap、filter等函数对其进行计算。

鉴于它的构造特点，因此我们只能使用Scala或者 Java 语言来使用它的API。对于Python的支持可能会在后续的SPark 版本中提供。

Dataset 与 RDD 十分类似，一个简单的创建方法如下：

请输入下面的代码来创建Dataset。

首先是通过已有的变量来创建。

// 数据类型的转化是自动完成的，大多数据情况下可以直接使用 toDS() 函数创建 Dataset

val ds = Seq(1,2,3).toDS()

//Dataset 支持 map等操作

ds.map(_ + 1).collect()

执行结果如下：

我们还可以通过 Case Class 来创建Dataset：

//构造一个 case class

case class Person(name: String, age: Long)

//使用 case class 创建 Dataset

val ds = Seq(Person("lxl",18)).toDS()

执行结果如下：

Select函数的应用：一些数学和统计函数

Spark SQL 中最常用的函数，莫过于检索函数 select()。就像其他语言中的检索一样，你可以通过该函数实现一些数据上的CURD操作。

Spark SQL API 中涉及到检索的函数主要有：

select(col: String, cols: String*)：该函数基于已有的列名进行查询，返回一个 DataFrame 对象。使用方法如 df.select($"colA", $"colB") 。
select(cols: Column*)：该函数可以基于表达式来进行查询，返回一个 DataFrame 对象。使用方法如 df.select($"colA", $"colB" + 1)。
selectExpr(exprs: String*)：该函数的参数可以是一句完整的SQL语句，仍然返回一个 DataFrame 对象。具体的 SQL 语法规则可以参考通用的 SQL 规则。该函数使用方法如 df.selectExpr("colA", "colB as newName", "abs(colC)") ，当然你也可以进行表达式的组合，如 df.select(expr("colA"), expr("colB as newName"), expr("abs(colC)")) 。

接下来，我们结合一些数据和统计的例子，来学习如何使用这些SQL函数（主要为select 函数）。

下面部分内容翻译自博文《Statistical and Mathematical Functions with DataFrames in Apache Spark》，内容上有改编。原文提供了 Python 代码。实验楼为你提供 Scala 版本的代码，可直接在 Spark Shell 中使用

产生随机数据

在很多时候，我们可能需要去验证一个算法（无论是自己设计的还是现有的），或者是实现一个随机的算法（例如随机投影）。这些时候我们手头上又找不到合适的数据集怎么办？产生随机的数据就是一个很好的选择。

在Spark SQL中，org.apache.spark.sql.functions 包提供了一些实用的函数，其中就包含了产生随机数的函数。它们可以从一个特定的分布中提取出独立同分布值，例如产生均匀分布随机数的函数 rand() 和产道理从正态分布的随机数的函数 randn()。我们可以通过下面的例子来简单使用一下随机数产生函数。

请按照下面的步骤完成操作。

首先我们需要产生一个数据框（DataFrame)来存放随机数

在获得 SQL Context 对象 sqlContext 后，使用range 方法产生一个指定范围大小的DataFrame。

// 创建含有单列数据的 DataFrame

val df = sqlContext.range(0,16)

执行结果如下：

接着，用show函数查看当前DataFrame 的内容（如果数据条目超过20个，默认只会显示前20行）。

df.show()

执行结果如下：

最后，使用均匀分布函数 rand 和标准正态分布函数 randn 来随机产生其他两列的数据，并用show函数查看结果。两个随机数函数中的参数为种子值（Seed）。

df.select($"id",rand(57).alias("uniform distribution"),randn(15).alias("standard normal distribution")).show()

执行结果如下（由于是随机数，列表中的数值可能不同）：

数据概要和描述性统计

在实际工程中，我们在导入数据后，通常需要通过数据的描述性统计信息来验证这些数据是否是我们想要的那些。数据的描述性统计信息能够刻画一堆数据的分布情况，例如非空实体的数量、所有数据的平均值和标准差、每个数值列的最大最小值等等。

这一切都只需要通过一个简单的 describe() 函数来实现。

首先我们还是需要产生一个 DataFrame ，这次仍然可以通过随机的方式来产生。代码如下：

val df1 = sqlContext.range(0,15).withColumn("uniform distribution",rand(99)).withColumn("standard normal distribution",randn(234))

执行结果如下：

接下来，调用 describe() 函数来计算描述性信息，并通过 show() 函数展现出来。代码如下：

df1.describe().show()

执行结果如下图所示（数值可能不同）：

试想：如果需要计算的 DataFrame 体量非常大，我们为了得到这个描述信息就可能需要花费更多的时间。因此，在选择计算对象的时候，我们可以将范围缩小在某一列上。达到这个目的只需要在 describe() 函数中填入指定的列名即可。

不妨试试下面的代码：

df1.describe("uniform distribution").show()

执行结果如下图所示：

我们可以看到结果中只针对 uniform distribution 一列进行了描述性信息的计算。

当然，除了通过 describe() 函数去进行数据分析，我们也可以把这些描述性信息的计算手段用到一个普通的 select 检索过程中。在需要什么信息的时候，就填入相应的计算函数即可，如下面的代码：

//这里的 uniform distribution 为列名

df1.select(mean("uniform distribution"),min("uniform distribution"),max("uniform distribution")).show()

执行结果如下图所示：

样本协方差和相关性计算

对于两个变量A和B而言，协方差表示了它们总体的误差大小。如果协方差为正数，说明变量A可能会随着变量B的增加面增加；如果协方差为负数，则说明变量A（或B）随着变量B（或A）的增加而减少。

现在，我们随机产生两个列的数据，从而创建一个 DataFrame：

// 这里我们使用了 withColumn 方法来为已有的DataFrame 附加列数据。每一次调用都会附加想应的列。

val df2 = sqlContext.range(0,18).withColumn("data1",rand(1290)).withColumn("data2",rand(5223))

执行结果如下：

接下来，使用 cov() 函数来计算任意两列之间的样本协方差。代码如下：

df2.stat.cov("data1","data2")

执行结果如下图所示：

可以观察到，这个样本协方差的数值十分地小，几乎接近于0。这也说明了随机产生的 data1 列与 data2 列的数据之间的差异较小。

如果是两个相同的列来比较呢？我们用 id 列尝试一下：

df2.stat.cov("id","id)

计算结果如下图所示（因为有取样过程，所有数据值可能不同）：

可以看到这个数字非常地大。试想一下造成这二者巨大区别的原因是什么呢？

最后我们再来计算一下数据的相关性。相关性是协方差的归一化度量，因此它能够更好地被理解，因为它的范围始终在正负的 0 到 1 之间。

计算两个不同列的相关性：

df2.stat.corr("data1","data2")

执行结果如下图所示：

同样地，计算两个相同列的相关性：

df2.stat.corr("id","id")

计算结果如下图所示：

此时两个相同列的相关性肯定就为 1 了。

SparkSQL案例

需求：将Hive中的emp表与mysql中的dept表进行连接查询

一、启动spark-shell

spark2-shell --master local[2] --driver-class-path /var/lib/sqoop/mysql-connector-java-5.1.46-bin.jar

或

spark2-shell --master local[2] --jars /var/lib/sqoop/mysql-connector-java-5.1.46-bin.jar

二、引包并建立JDBC连接
val url = "jdbc:mysql://vin01:3306/test?user=root&password=123456" import java.util.Properties val props = new Properties()

三、创建DataFrame

四、jion
val join_df = hive_emp_df.join(mysql_dept_df, "deptno")

五、将jion出来的值注册为临时表，方便查询
join_df.registerTempTable("join_emp_dept")
查询：
sqlContext.sql("select empno, ename, deptno, deptname, sal from join_emp_dept order by empno").show

Spark 基础之SQL 快速上手的更多相关文章

Spark 安装部署与快速上手
Spark 介绍核心概念 Spark 是 UC Berkeley AMP lab 开发的一个集群计算的框架,类似于 Hadoop,但有很多的区别. 最大的优化是让计算任务的中间结果可以存储在内存中, ...
LINQ to SQL快速上手 step by step
Step1:建立数据库在使用Linq to Sql前,我们要将相应的数据库建好.在这个Demo中,使用的数据库是SQL Server Express 2005. 我们首先建立一个 ...
Gradle快速上手——从Maven到Gradle
[本文写作于2018年7月5日] 本文适合于有一定Maven应用基础,想快速上手Gradle的读者. 背景 Maven.Gradle都是著名的依赖管理及自动构建工具.提到依赖管理与自动构建,其重要性在 ...
spark快速上手
spark快速上手前言基于Spark 2.1版本仅仅是快速上手,没有深究细节主要参考是官方文档代码均为官方文档中代码,语言为Scala 进入spark-shell 终端输入spark-she ...
Spark2.x学习笔记：Spark SQL快速入门
Spark SQL快速入门本地表 (1)准备数据 [root@node1 ~]# mkdir /tmp/data [root@node1 ~]# cat data/ml-1m/users.dat | ...
React:快速上手(1)——基础知识
React:快速上手(1)——基础知识 React(有时叫React.js或ReactJS)是一个为数据提供渲染为HTML视图的开源JavaScript库,用于构建用户界面. JSX.元素及渲染 1. ...
三分钟快速上手TensorFlow 2.0 （上）——前置基础、模型建立与可视化
本文学习笔记参照来源:https://tf.wiki/zh/basic/basic.html 学习笔记类似提纲,具体细节参照上文链接一些前置的基础随机数 tf.random uniform(sha ...
《Python游戏编程快速上手》|百度网盘免费下载|Python基础编程
<Python游戏编程快速上手>|百度网盘免费下载| 提取码:luy6 Python是一种高级程序设计语言,因其简洁.易读及可扩展性日渐成为程序设计领域备受推崇的语言. 本书通过编写一个个 ...
CSS快速入门基础篇，让你快速上手（附带代码案例）
1.什么是CSS 学习思路 CSS是什么怎么去用CSS(快速上手) CSS选择器(难点也是重点) 网页美化(文字,阴影,超链接,列表,渐变等) 盒子模型浮动定位网页动画(特效效果) 项目格式: ...

随机推荐

Spring @Resource,@Autowired,@Qualifier的注解注入和区别
spring2.5提供了基于注解(Annotation-based)的配置,我们可以通过注解的方式来完成注入依赖.在Java代码中可以使用 @Resource或者@Autowired注解方式来经行注入 ...
Java分布式锁
分布式锁简述在单机时代,虽然不存在分布式锁,但也会面临资源互斥的情况,只不过在单机的情况下,如果有多个线程要同时访问某个共享资源的时候,我们可以采用线程间加锁的机制,即当某个线程获取到这个资源后,就 ...
如何用node命令和webpack命令传递参数转载
1. 比如在项目中我们的publicPath需要根据服务器环境的变化而变化,这时我们会写一个配置文件,在webpack.config.js中读取,可以如何才能取到变量呢? 这里介绍一种方法: 如果 ...
PythonStudy——格式化输入小练习
# 练习:用户输入姓名.年龄.工作.爱好 ,然后打印成以下格式# ------------ info of Egon -----------# Name : Egon# Age : 22# Sex : ...
Makefile中的ifeq 多条件使用
Makefile中的ifeq 多条件使用网上关于makefile中ifeq的介绍已经很多了,为什么我还要在写这篇文章,因为他们只说了if else两种条件的情况,并没有讲多于两种条件情况的使用. 多 ...
angularjs 的模型无法绑定到隐藏域(input hidden)
描述一下问题: 在操作表单中的隐藏域的时候发现angularjs的模型无法绑定,比如: <input type="hidden" name="someData&qu ...
一个简单的makefile文件
一个简单的makefile文件:可以编译指定目录下的所有c和cpp文件,暂未加入自动头文件的依赖. #!/bin/bash #编译器 CROSS_COMPILING_PATH = #源文件路径 VPA ...
前端-JavaScript1-4——JavaScript之变量
变量(Variables),和高中代数学习的x.y.z很像,它们不是字母,而是蕴含值的符号. 它和直接量不同,直接量5,就是数字5:直接量”你好”就是字符串“你好”.现在这个变量不一样了,你看见一个a ...
C++Primer第五版——习题答案详解（九）
习题答案目录:https://www.cnblogs.com/Mered1th/p/10485695.html 第10章泛型算法练习10.1 #include<iostream> #i ...
centos7升级Python2.x到3.x
CentOS 7 中默认安装了 Python,版本比较低(2.7.5),为了使用新版 3.x,需要对旧版本进行升级.由于很多基本的命令.软件包都依赖旧版本,比如:yum.所以,在更新 Python 时 ...

Spark 基础之SQL 快速上手

SparkSQL案例

Spark 基础之SQL 快速上手的更多相关文章

随机推荐

热门专题