Spark SQL是Spark框架的重要组成部分，主要用于结构化数据处理和对Spark数据执行类SQL的查询。

DataFrame是一个分布式的，按照命名列的形式组织的数据集合。一张SQL数据表可以映射为一个DataFrame对象，DataFrame是Spark SQL中的主要数据结构。

SqlContext实例是DataFrame和Spark SQL的操作入口， pyspark交互环境中已初始化了一个sqlContext实例，在提交任务脚本时需要使用一个SparkContext来初始化：

from pyspark.sql import SQLContext

sqlContext = SqlContext(sparkContext)

本文测试环境为Spark 2.1.0， Python API.

创建DataFrame

SqlContext.createDataFrame方法可以从python的list中创建DataFrame:

>>> data = [('a', 1, 18), ('b', 2, 22), ('c', 3, 20)]

>>> df = sqlContext.createDataFrame(data)

>>> df.collect()

[Row(_1=u'a', _2=1, _3=18),

Row(_1=u'b', _2=2, _3=22),

Row(_1=u'c', _2=3, _3=20)]

list中的每一项成为DataFrame中的一行，每一列的名字默认为_1, _2, _3.

同样可以使用RDD来创建:

>>> data = [('a', 1, 18), ('b', 2, 22), ('c', 3, 20)]

>>> rdd = sc.parallelize(data)

>>> df = sqlContext.createDataFrame(rdd)

>>> df.collect()

[Row(_1=u'a', _2=1, _3=18),

Row(_1=u'b', _2=2, _3=22),

Row(_1=u'c', _2=3, _3=20)]

或者采用更简单的方法:

>>> df = rdd.toDF()

>>> >>> df.collect()

[Row(_1=u'a', _2=1, _3=18),

Row(_1=u'b', _2=2, _3=22),

Row(_1=u'c', _2=3, _3=20)]

createFrame的第二个参数为可选参数schema用于定义每一列的名称和类型:

>>> data = [('a', 1, 18), ('b', 2, 22), ('c', 3, 20)]

>>> df = sqlContext.createDataFrame(data, ['name', 'id', 'age'])

>>> df.collect()

[Row(name=u'a', id=1, age=18),

Row(name=u'b', id=2, age=22),

Row(name=u'c', id=3, age=20)]

同样可以使用元素为dict的列表创建DataFrame实例：

>>> data = [

... {'name':'a', 'id':1, 'age': 18},

... {'name':'b', 'id':2, 'age': 22},

... {'name':'c', 'id':3, 'age': 20}]

>>> df = sqlContext.createDataFrame(data)

>>> df.collect()

[Row(name=u'a', id=1, age=18),

Row(name=u'b', id=2, age=22),

Row(name=u'c', id=3, age=20)]

不过Spark官方推荐使用Row对象来代替dict:

>>> from pyspark.sql import Row

>>> User = Row('name', 'id', 'age')

>>> row1 = User('a', 1, 18)

>>> row2 = User('b', 2, 22)

>>> row3 = User('b', 3, 20)

>>> data = [row1, row2, row3]

>>> df = sqlContext.createDataFrame(data)

>>> df.collect()

[Row(name=u'a', id=1, age=18),

Row(name=u'b', id=2, age=22),

Row(name=u'c', id=3, age=20)]

schema参数也可以使用pyspark中定义的字段类型:

>>> from pyspark.sql.types import StructType, StructField

>>> from pyspark.sql.types import StringType, IntegerType

>>> schema = StructType([

... StructField("name", StringType(), True),  # name， type, nullable

... StructField("id", IntegerType(), True),

... StructField("age", IntegerType(), True)])

>>> data = [('a', 1, 18), ('b', 2, 22), ('c', 3, 20)]

>>> df = sqlContext.createDataFrame(data, schema)

>>> df.collect()

[Row(name=u'a', id=1, age=18),

Row(name=u'b', id=2, age=22),

Row(name=u'c', id=3, age=20)]

更多关于createDataFrame方法的信息可以参考官方文档

SqlContext.read是一个pyspark.sql.DataFrameReader对象，它可以用于根据外部数据源创建DataFrame，包括读取文件和使用jdbc读取数据库。

详情可以参考官方文档

DataFrame操作

DataFrame提供了一些常用操作的实现，可以使用这些接口查看或修改DataFrame：

df.collect(): 以Row列表的方式显示df中的所有数据
df.show()：以可视化表格的方式打印df中的所有数据
df.count()：显示df中数据的行数
df.describe() 返回一个新的DataFrame对象包含对df中数值列的统计数据
df.cache(): 以MEMORY_ONLY_SER方式进行持久化
df.persist(level): 以指定的方式进行持久化
df.unpersist(): 删除缓存

DataFrame的一些属性可以用于查看它的结构信息:

df.columns：返回各列名称的列表
df.schema：以StructType对象的形式返回df的表结构
df.dtypes: 以列表的形式返回每列的名称和类型。

[('name', 'string'), ('id', 'int')]
df.rdd 将DataFrame对象转换为rdd

DataFrame支持使用Map和Reduce操作:

df.map(func): 等同于df.rdd.map(func)
df.reduce(func): 等同于 df.rdd.reduce(func)

DataFrame的结构可以进行一些修改：

df.drop(col): 返回一个删除指定列后的DataFrame对象:

>>> df.drop('age')

DataFrame[age:int, id: int]

>>>df.drop(df.name)

DataFrame[age:int, id: int]

同样可以查询DataFrame中特定的记录：

df.take(index): 以列表的形式返回df的前n条记录，下标从1开始
df.first(): 返回df中的第一个Row对象
df.filter(cond): 返回只包含满足条件记录的新DataFrame对象

>>> df.filter(df.age>=20).collect()

[Row(name=u'b', id=2, age=22), Row(name=u'c', id=3, age=20)]

df.select(col): 返回只包含指定列的新DataFrame对象：

>>> df.select('*').collect()

[Row(name=u'a', id=1, age=18), Row(name=u'b', id=2, age=22), Row(name=u'c', id=3, age=20)]

>>> df.select(df.id, df.age-1).collect()

[Row(id=1, (age - 1)=17), Row(id=2, (age - 1)=21), Row(id=3, (age - 1)=19)]

df.join(other, on=None, how=None)将df和other两个DataFrame对象连接为一个DataFrame对象.
- on：指定连接的列
- how：指定连接方式：'inner', 'outer', 'left_outer', 'right_outer', 'leftsemi', 默认为'inner'

>>> df.collect()

[Row(name=u'a', id=1, age=18), Row(name=u'b', id=2, age=22), Row(name=u'c', id=3, age=20)]

>>> df2.collect()

[Row(id=1, nation=u'cn'), Row(id=2, nation=u'us'), Row(id=4, nation=u'uk')]

>>> df.join(df2, 'id').collect()

[Row(id=1, name=u'a', age=18, nation=u'cn'), Row(id=2, name=u'b', age=22, nation=u'us')]

df.limit(num): 返回一个新的DataFrame对象，其记录数不超过num, 多余的记录将被删除.
df.distinct() : 返回一个新的去除重复行后的DataFrame对象

更多信息可以参考官方文档

Spark SQL结构化数据处理的更多相关文章

spark结构化数据处理：Spark SQL、DataFrame和Dataset
本文讲解Spark的结构化数据处理,主要包括:Spark SQL.DataFrame.Dataset以及Spark SQL服务等相关内容.本文主要讲解Spark 1.6.x的结构化数据处理相关东东,但 ...
SQL 结构化查询语言
SQL 结构化查询语言一.数据库的必要性: >>作用:存储数据.检索数据.生成新的数据 1)可以有效结构化存储大量的数据信息,方便用户进行有效的检索和访问. 2)可以有效地保持数据信息的 ...
SQL结构化查询语句
SQL结构化查询语句 SQL定义了查询所有关系型数据库的规则. 1.通用语法 SQL语句可以单行或者多行书写,以分号结尾可以使用空格和缩进增强可读性不区分大小写,但是关键字建议大写 3种注释注释 ...
SQL结构化查询语言
一.SQL 结构化查询语言 1.T-SQL 和 SQL的关系 T-SQL是SQL的增强版 2.SQL的组成 2.1 DML (数据操作语言) 增加,修改,删除等数据操作 2.2 DCL (数据控制语言 ...
Spark读取结构化数据
读取结构化数据 Spark可以从本地CSV,HDFS以及Hive读取结构化数据,直接解析为DataFrame,进行后续分析. 读取本地CSV 需要指定一些选项,比如留header,比如指定delimi ...
R语言︱非结构化数据处理神器——rlist包
本文作者:任坤,厦门大学王亚南经济研究院金融硕士生,研究兴趣为计算统计和金融量化交易,pipeR,learnR,rlist等项目的作者. 近年来,非关系型数据逐渐获得了更广泛的关注和使用.下面分别列举 ...
SQL查询--简单了解SQL(结构化查询语言)
以下内容是从其他地方摘抄过来的哈,原文地址忘记了,当时把内容记在了笔记中 SQL分类: 数据查询语言(DQL) 数据定义语言(DDL) 数据操纵语言(DML) 数据控制语言(DCL) 1.数据查询语言 ...
SQL 结构化查询语言手册
摘自该学习网站: http://www.w3school.com.cn/sql/ 新学到的几点: and 和or 连用,记得用括号. 2.SQL通配符补充例如: ...
基于oracle的sql(结构化查询语言)指令
创建表空间 create tablespace 表空间名 datafile '存储路径(c:\a\a.dbf)' size 200m autoextend on next 10m maxsize un ...

随机推荐

python 用文本来提供输入信息的模板,不用每次都手动粘贴了
#下面这一段用一个txt来保存input的信息来模拟input.最后提交代码时候删除这一段即可. a9999=open('1.txt','r') def input(): return a9999.r ...
深入理解JVM(二)Java内存区域
2.1 C.C++内存管理是由开发人员管理,而Java则交给了JVM进行自动管理 2.2 JVM运行时数据区:方法区.堆(运行时线程共享),虚拟机栈.本地方法栈.程序计数器(运行时线程隔离,私有) 1 ...
VBA找相似体积的单元格值
在VBA中做了一个比较体积,如果体积相似就显示隔壁单元格的内容 Function VC(a, b As Range) 'VolumeCompare体积比较 Dim arry() As Variant ...
Alpha 冲刺 (7/10)
队名火箭少男100 组长博客林燊大哥作业博客 Alpha 冲鸭鸭鸭鸭鸭鸭鸭! 成员冲刺阶段情况林燊(组长) 过去两天完成了哪些任务协调各成员之间的工作学习MSI.CUDA 试运行软件并调试 ...
基于OpenCV的图书扫描识别程序开发
1.AndroidStudio环境配置 https://www.cnblogs.com/little-monkey/p/7162340.html
cropper，图片剪辑上传工具的使用
cropper工具是一个功能强,兼容性好的一个图片裁剪和上传工具 GitHub地址:https://github.com/kesixin/Head_Cut_PC <div class=" ...
配置 npm 缓存目录，防止占满系统版
通过命令编辑缓存的路径配置: npm config edit 内如如: 指定到系统盘之外的路径,如 d: 盘:然后将原来目录中已缓存的内如剪切过来~ Notice(2019.3.15): 截图中路径含 ...
网页中的数据的4个处理方式：CRUD（Creat， Retrive， Update， Delete）
网页中的数据的4个处理方式:CRUD(Creat, Retrive, Update, Delete) 2018-12-21, 后续完善
[ 9.24 ]CF每日一题系列—— 468A构造递推
Description: 1 - n个数问你能否经过加减乘除这些运算n -1次的操作得到24 Solutrion: 一开始想暴力递推,发现n的范围太大直接否决,也否决了我的跑dfs,后来就像肯定有个递 ...
GCD on Blackboard
题目大意:给你n个数,然后在这n个数中选一个数,选中的这个数可以变成任意的数,使这n个数的gcd(最大公约数)最大.打印这个最大的gcd. 思路:这题一看貌似很复杂,其实这题只要你知道前缀和和 ...

Spark SQL结构化数据处理

创建DataFrame

DataFrame操作

Spark SQL结构化数据处理的更多相关文章

随机推荐

热门专题