学习一门开源技术一般有两种入门方法，一种是去看官网文档，比如Getting Started - Spark 3.2.0 Documentation (apache.org)，另一种是去看官网的例子，也就是%SPARK_HOME%\examples下面的代码。打开IDEA，选择File-Open...

跟前面文章中方法一样导入jars目录到classpath。

Spark解析json字符串

第一个例子是读取并解析Json。这个例子的结果让我有些震惊，先上代码：

public
static
void main(String[] args) {
SparkSession session = SparkSession.builder().master("local[1]").appName("SparkSqlApp").getOrCreate();
Dataset<Row> json = session.read().json("spark-core/src/main/resources/people.json");
json.show();
}

让我惊讶的是文件的内容。例子里面的文件是三个大括号并列，文件扩展名是.json，由于没有中括号，所以格式是错的：

{"name":"Michael"}
{"name":"Andy", "age":30}
{"name":"Justin", "age":19}

但是spark解析出来了：

于是我把文件改成下面这样向看下结果

[{"name":"Michael"},
{"name":"Andy", "age":30},
{"name":"Justin", "age":19}
]

你猜输出是什么？

显然，spark没有解析出第一行，而且把第4行也解析了。这也说明了为什么样例的文件可以解析：首先跟文件扩展名是没啥关系的，另外spark是按行解析，只要考虑这一行是否符合解析要求就可以，行末可以有逗号。所以把文件改成下面也是可以的

{"name":"Michael"},
{"name":"Andy", "age":30},..
{"name":"Justin", "age":19}

第一行后面有逗号，第二行后面还有两个点。

SQL 查询

在之前的例子中，读取文件返回的是Dataset<String>，因为之前确实是读取的文件内容。现在使用json()方法返回的是DataFrame，数据是经过spark处理过的。

DataFrame提供了一些好用的方法，用的最多的就是show()。它主要用于调试，可以把数据以表格形式打印。spark确实给DataFrame生成了表结构，可以通过printSchema()方法查看

不但有字段名，还有字段类型，还有是否可空（好像都能空）。

DF还提供了类似于sql查询的方法，比如select()/groupBy()，和where类似的filter()等：

这里我们首先给年龄字段+1，并通过别名（相等于SQL里的AS）让他覆盖之前的字段，然后查询比19大的记录，最后根据年龄分组汇总。

如果我们把新字段不覆盖原字段呢？你猜是执行报错还是啥结果？

That's all？当然不是，Spark提供了更强大的SQL操作：视图

View

视图分临时视图和全局视图。临时视图时会话级别的，会话结束了视图就没了；全局视图时应用级别的，只要Spark应用不停，视图就可以跨会话使用。

可见临时视图和全局视图可以叫一样的名字，它们的内容互不干扰。因为要访问全局视图需要通过global_temp库。不信你可以这样试一下

Dataset<Row> group = json.select(col("name"), col("age").plus(1).alias("age1"))
.filter(col("age").gt(19))
.groupBy("age1")
.count();
group.createOrReplaceTempView("people");
json.createOrReplaceGlobalTempView("people");
Dataset<Row> temp = session.sql("select * from people");
Dataset<Row> global = session.sql("select * from global_temp.people");
Dataset<Row> global1 = session.newSession().sql("select * from global_temp.people");
temp.show();
global.show();
global1.show();

Dataset

我们已经跟Dataset打过不少交道了，这里再稍晚多说一点点。实际上如果你是自己摸索而不是完全看我写的，下面这些内容估计都已经探索出来了。

1 转换自DF

DF是无类型的，Dataset是有类型的。如果要把无类型的转成有类型的，就需要提供一个类型定义，就像mysql表和Java的PO一样。

先来定义Java类：

public
class Person implements Serializable {
private String name;
private
long age;
public String getName() {
return name;
}
public
void setName(String name) {
this.name = name;
}
public
long getAge() {
return age;
}
public
void setAge(long age) {
this.age = age;
}
}

这个类必须实现序列化接口，原因在前面也说过了。

接下来把读入json的DataFrame转成Dataset：

之前都是使用Encoders内置的编码器，这里通过bean()方法生成我们自定义类的编码器，然后传给DF的as()方法就转成了Dataset。

既然转成了强类型的Dataset，那能把每一个对象拿出来吗？给Person类增加toString方法，然后遍历Dataset：

结果报错了竟然：已经生成了集合，却不能访问元素？

报错原因很简单：我们类中的age是原始数据类型，但是实际数据有一个null。把long age改成Long age即可：

但是为什么会这样呢？！~我猜是因为as方法用的编码器（序列化工具）和foreach用到的解码器不匹配，spark的编码器不要求数据符合Java编译规则。

来自Java集合

目前我们掌握了通过读取文件（textFile(path)）、转化其他Dataset（map/flatMap）和转换DF来生成Dataset，如果已经有一堆数据了，也可以直接创建。

SparkSession重载了大量根据数据集生成Dataset和DataFrame的方法，可以自由选择：

所以我们创建一个List来生成，只能是List，不能是Collection

神奇的是原本应该一样的代码，执行的时候有一个报错。这个算Java实现的BUG吧，原因参考Java中普通lambda表达式和方法引用本质上有什么区别？ - RednaxelaFX的回答 - 知乎

https://www.zhihu.com/question/51491241/answer/126232275

转自RDD

RDD 在Java环境下叫JavaRDD。它也是数据集，可以和Dataset/DataFrame互转。这里不说了，有兴趣可以探索。

Spark3学习【基于Java】3. Spark-Sql常用API的更多相关文章

Spark SQL 编程API入门系列之SparkSQL的依赖
不多说,直接上干货! 不带Hive支持 <dependency> <groupId>org.apache.spark</groupId> <artifactI ...
Java之String类常用API
目录 Java之String类常用API char chatAt(int index) int length() char[] toCharArray() String(char value[]) S ...
oracle学习笔记（九） SQL常用函数说明以及使用
SQL常用函数说明以及使用以下补充以下常用的函数,更多的请看oracle函数API文档 to_char to_char(8.58,'9.99') to_char(8.50,'9.00') to_ch ...
spark sql 常用语句
在spark dataFrame数据结构里面使用sql语句查询数据 (因为是RDD和dataFrame数据是只读的,所以不能做修改,删除操作.) 首先将文本数据转换为DataFrame数据格式有两种 ...
Spark SQL 编程API入门系列之SparkSQL数据源
不多说,直接上干货! SparkSQL数据源:从各种数据源创建DataFrame 因为 spark sql,dataframe,datasets 都是共用 spark sql 这个库的,三者共享同样的 ...
Spark SQL 编程API入门系列之Spark SQL支持的API
不多说,直接上干货! Spark SQL支持的API SQL DataFrame(推荐方式,也能执行SQL) Dataset(还在发展) SQL SQL 支持basic SQL syntax/Hive ...
Spark SQL 编程API入门系列之SparkSQL的入口
不多说,直接上干货! SparkSQL的入口:SQLContext SQLContext是SparkSQL的入口 val sc: SparkContext val sqlContext = new o ...
Spark SQL 编程API入门系列之Spark SQL的作用与使用方式
不多说,直接上干货! Spark程序中使用SparkSQL 轻松读取数据并使用SQL 查询,同时还能把这一过程和普通的Python/Java/Scala 程序代码结合在一起. CLI---Spark ...
Java（22）常用API一
1 API 1.1 API概述什么是API API (Application Programming Interface) :应用程序编程接口 java中的API 指的就是 JDK 中提供的 ...

随机推荐

实验 1： SDN拓扑实践
(图片和文档是自己写的,因为在CSDN也写了,所以会有自己的水印) 一.实验目的能够使用源码安装Mininet: 能够使用Mininet的可视化工具生成拓扑: 能够使用Mininet的命令行生成特定 ...
RGB-YUV
1,RGB 1.1 RGB说明 RGB色彩模式是工业界的一种颜色标准,是通过对红(R).绿(G).蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的,RGB即是代表红.绿.蓝三个通 ...
猫狗收容所牛客网程序员面试金典 C++
猫狗收容所牛客网程序员面试金典 C++ 题目描述有家动物收容所只收留猫和狗,但有特殊的收养规则,收养人有两种收养方式,第一种为直接收养所有动物中最早进入收容所的,第二种为选择收养的动物类型(猫或 ...
vue中Element-ui样式修改
下拉框(el-dropdown) // hover 下拉框的hover效果 .el-dropdown-menu__item:focus, .el-dropdown-menu__item:not(.is ...
linux系列之: 你知道查看文件空间的两种方法吗?
目录简介 du命令 df命令总结简介 linux系统中查看文件空间大小应该是一个非常常见的命令了,今天给大家介绍linux系统中查看文件空间的两种方法和在使用中可能会遇到的奇怪问题. 为什么会有 ...
MySQL到底能否解决幻读问题
先说结论,MySQL 存储引擎 InnoDB 在可重复读(RR)隔离级别下是解决了幻读问题的. 方法:是通过next-key lock在当前读事务开启时,1.给涉及到的行加写锁(行锁)防止写操作:2. ...
USB3.0 转USB3.0
前段时间因为项目需求需要将相机的USB3.0口转接出来,心想那还不想简单,结果第一次就碰壁了:先说一下usb3.0的引脚定义如图: 九个脚,2个地:注意USB3.0转3.0时数据线全交叉,DM-和DP ...
MnogoDB唯一索引，稀疏索引
1,单个字段唯一索引 db.collection.createIndex({name:1},{unique:true} 2,多个字段联合索引示例 db.collection.createIndex({ ...
(一)初识MySQL
JavaEE:企业级Java开发 Web 前端(页面:展示,数据) 后台(连接点,连接数据库JDBC,链接前端(控制,控制视图跳转和给前端传递数据)) 数据库(存数据,Txt,Excel,word) ...
python 函数的定义及调用语法，map 方法，函数嵌套递归
1.什么是函数开发程序时候,需要代码执行多次,为了提高编写效率及代码重用性,所以把具有独立功能的代码块组织为一个小模块,给这个功能一个名称,这就是函数. 函数可以使用系统自带的函数也可以 ...

Spark3学习【基于Java】3. Spark-Sql常用API