Spark SQL 及其DataFrame的基本操作

1.Spark SQL出现的原因是什么?

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个叫作Data Frame的编程抽象结构数据模型(即带有Schema信息的RDD)，Spark SQL作为分布式SQL查询引擎，让用户可以通过SQL、DataFrame API和Dataset API三种方式实现对结构化数据的处理。但无论是哪种API或者是编程语言，都是基于同样的执行引擎，因此可以在不同的API之间随意切换。

Spark SQL的前身是 Shark，Shark最初是美国加州大学伯克利分校的实验室开发的Spark生态系统的组件之一，它运行在Spark系统之上，Shark重用了Hive的工作机制，并直接继承了Hive的各个组件， Shark将SQL语句的转换从MapReduce作业替换成了Spark作业，虽然这样提高了计算效率，但由于 Shark过于依赖Hive，因此在版本迭代时很难添加新的优化策略，从而限制了Spak的发展，在2014年，伯克利实验室停止了对Shark的维护，转向Spark SQL的开发。

2.用spark.read 创建DataFrame

Spark SQL DataFrame的基本操作

1.创建：spark.read.text() ；spark.read.json()

file='file:///D:/Spark/spark-2.4.7-bin-hadoop2.7/examples/src/main/resources/people.txt'

df = spark.read.text(file)

file='file:///D:/Spark/spark-2.4.7-bin-hadoop2.7/examples/src/main/resources/people.json'

df = spark.read.json(file)

2.打印数据df.show()默认打印前20条数据，df.show(n)

3.打印概要df.printSchema()

4.查询总行数df.count()

5.df.head(3) #list类型，list中每个元素是Row类

6.输出全部行 df.collect() #list类型，list中每个元素是Row类

7.查询概况 df.describe().show()

8.取列

df[‘name’]

df.name

df.select()

df.filter()

df.groupBy()

df.sort()

3.观察从不同类型文件创建DataFrame有什么异同?

spark.read操作

代码示例	描述
spark.read.text("people.txt")	读取txt格式的文本文件，创建DataFrame
spark.read.csv ("people.csv")	读取csv格式的文本文件，创建DataFrame
spark.read.json("people.json")	读取json格式的文本文件，创建DataFrame
spark.read.parquet("people.parquet")	读取parquet格式的文本文件，创建DataFrame

txt文件：创建的DataFrame数据没有结构

json文件：创建的DataFrame数据有结构

4.观察Spark的DataFrame与Python pandas的DataFrame有什么异同？

Spark SQL 及其DataFrame的基本操作的更多相关文章

06 Spark SQL 及其DataFrame的基本操作
1.Spark SQL出现的原因是什么? Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个叫作Data Frame的编程抽象结构数据模型(即带有Schema信息的RDD),S ...
Spark SQL 之 DataFrame
Spark SQL 之 DataFrame 转载请注明出处:http://www.cnblogs.com/BYRans/ 概述(Overview) Spark SQL是Spark的一个组件,用于结构化 ...
spark结构化数据处理：Spark SQL、DataFrame和Dataset
本文讲解Spark的结构化数据处理,主要包括:Spark SQL.DataFrame.Dataset以及Spark SQL服务等相关内容.本文主要讲解Spark 1.6.x的结构化数据处理相关东东,但 ...
Spark SQL、DataFrame和Dataset——转载
转载自: Spark SQL.DataFrame和Datase
转】Spark SQL 之 DataFrame
原博文出自于: http://www.cnblogs.com/BYRans/p/5003029.html 感谢! Spark SQL 之 DataFrame 转载请注明出处:http://www.cn ...
Spark官方1 ---------Spark SQL和DataFrame指南（1.5.0）
概述 Spark SQL是用于结构化数据处理的Spark模块.它提供了一个称为DataFrames的编程抽象,也可以作为分布式SQL查询引擎. Spark SQL也可用于从现有的Hive安装中读取数据 ...
Spark SQL and DataFrame Guide(1.4.1)——之DataFrames
Spark SQL是处理结构化数据的Spark模块.它提供了DataFrames这样的编程抽象.同一时候也能够作为分布式SQL查询引擎使用. DataFrames DataFrame是一个带有列名的分 ...
Spark学习之路（八）—— Spark SQL 之 DataFrame和Dataset
一.Spark SQL简介 Spark SQL是Spark中的一个子模块,主要用于操作结构化数据.它具有以下特点: 能够将SQL查询与Spark程序无缝混合,允许您使用SQL或DataFrame AP ...
Spark 系列（八）—— Spark SQL 之 DataFrame 和 Dataset
一.Spark SQL简介 Spark SQL 是 Spark 中的一个子模块,主要用于操作结构化数据.它具有以下特点: 能够将 SQL 查询与 Spark 程序无缝混合,允许您使用 SQL 或 Da ...
spark sql 创建DataFrame
SQLContext是创建DataFrame和执行SQL语句的入口通过RDD结合case class转换为DataFrame 1.准备:hdfs上提交一个文件,schema为id name age, ...

随机推荐

DOM属性节点加其他节点的操作
节点属性 nodeType 返回值为数值节点类型(nodeType) 节点名字(nodeName) 节点值(nodeValue) 元素节点 ...
[ACM]快速排序模板
思路快排基本思路应该就是二分+递归,从两侧同时(实则先从右往左)往中间找,同时和参变量对比,发现位置颠倒后交换位置,然后通过二分将其一块一块的分割开,直到分割到一个元素位置,即完成了快排. 代码 # ...
StampedLock：JDK1.8中新增，比ReadWriteLock还快的锁
摘要:StampedLock是一种在读取共享变量的过程中,允许后面的一个线程获取写锁对共享变量进行写操作,使用乐观读避免数据不一致的问题,并且在读多写少的高并发环境下,比ReadWriteLock更快 ...
day65:Linux:nginx代理&nginx负载均衡
目录 1.nginx代理 2.nginx代理与配置 3.nginx负载均衡调度多web节点(静态页面) 4.nginx负载均衡调度多应用节点(blog) 5.nginx_proxy + web应用节点 ...
ajax面试题总结
转载请注明出处: 1.ajax异步和同步的区别 Ajax是一种基于JavaScript语言和XMLHttpRequest对象的异步数据传输技术,通过它可以使不用刷新整个页面的情况下,对页面进行部分更新 ...
ubutn在线服务器python Package安装到离线服务器
1.在线服务器导出requirement.txt pip freeze > requirement.txt 该文件生成完毕后,需要做些修改,去掉不需要的库,否则下载的时候会出错. 2.下载whl ...
【Python毕业设计】基于Python+Flask+MySQL的学生信息管理系统（附完整源码）
1.项目说明基于python+Flask+mysql的学生信息管理系统项目实战项目需要安装pycharm专业版,mysql数据库以及项目所需的所有模块创建数据库名称db_online_notes,然 ...
nginx启动报错80端口号已占用
开启或重启Nginx时报如下错误: Nginx [emerg]: bind() to 0.0.0.0:80 failed (98: Address already in use) 原因是端口号80被其 ...
python字符串集合面试笔试题
python字符串面试笔试题以下代码的输出是? s = 'foo' t = 'bar' print('barf' in 2 * (s + t)) A.True B.Fasle +运算符连接字符串,而 ...
C# 禁用窗口激活
如果界面点击时,不想让窗口激活,可以按如下操作: 1 public MainWindow() 2 { 3 InitializeComponent(); 4 SourceInitialized += O ...

Spark SQL 及其DataFrame的基本操作

Spark SQL 及其DataFrame的基本操作的更多相关文章

随机推荐

热门专题