[DB] Spark SQL
概述
- 基于Spark,兼容Hive
- 集成在Spark中,不需单独安装
- 提供统一的数据访问方式
- 结构化的数据类型:JDBC、JSON、Hive、Parquet(Saprk SQL 默认数据源)
- 支持标准的数据连接:JDBC、ODBC
- Hive把sql解析成了mapreduce程序,sparksql把sql语句解析成了Spark任务
- spark core 操作RDD,spark sql 操作DataFrame
- RDD内部元素是java对象,DataFrame内部是Row对象,相比于RDD多了元信息
- DataFrame是一种以RDD为基础的分布式数据集,类似MySQL的表
- DataSet是分布式的数据集合,提供了强类型支持,在RDD每行增加类型约束,解决了DataFrame缺乏编译时类型安全
- DataSet包含了DataFrame功能,Spark2.0中两者统一,DataFrame表示为DataSet[Row]
- 表(DataFrame)= 结构(Schema) + 数据(RDD)
- Spark on Hive:通过Sparksql加载Hive配置文件,获取元信息,底层运行Spark RDD(Spark主导,拿到Hive元信息),例如通过Spark程序将Hive数据写入ES
- Hive on Spark:把Hive查询从mr操作替换为Spark RDD操作,需重新编译Spark,操作较复杂(Hive主导,替换计算引擎)
RDD
DataFrame
或
DataSet

优缺点
RDD
- 优点
- 编译时类型安全
- 面向对象开发风格
- 缺点
- 构建java对象会占用heap堆空间,导致频繁GC
- 数据序列化,反序列化开销大
DataFrame
- 优点
- 引入off-heap,对象构建不占用堆内存,避免频繁GC,运行效率高
- 引入schema,传输数据量减小,序列化反序列化开销减小
- 缺点
- 编译时不安全
- 不具有面向对象开发风格
DataSet
- 优点
- 结合RDD和DataFrame
- 支持自定义对象存储
- 支持结构化数据sql查询
- 采用堆外存储,gc友好
- 类型转换安全,代码友好
创建DataFrame
- 使用 case class 样本类
- 定义表的 schema
- 导入HDFS的dept.csv作为数据
- 使用 Spark Session
- 包括 Spark Context、SQL Context、Streaming Context
- 2.0后引入的统一访问接口,可访问所有spark组件
- 使用StructType创建schema
- 读取带格式文件
- Json

操作DataFrame
- DSL语句
- SQL语句
DataSet
视图
- 虚表,不存储数据
- 普通视图:本地视图,只在当前session中有效
- 全局视图:在不同session中都有效,把全局视图创建命名空间,global_temp
数据源
- load() 和 save()
- Parquet文件
- 列式存储文件,Spark SQL默认数据源
- 把其它文件转为Parquet文件
- 支持Schema的合并:项目开始的时候,表(schema)很简单,逐步向表中增加新的列
- Json文件
- val testResult = spark.read.json("/usr/local/tmp_files/emp.json")
- JDBC
- Hive
自定义函数
- UDF
- UDAF
性能优化
- 缓存方式:在内存中缓存数据
- 性能优化参数
IDE中开发
- 关闭log4j
参考
官网
Spark 集成 Hive
https://www.cnblogs.com/juncaoit/p/6545092.html
https://blog.csdn.net/qq_16633405/article/details/78278786
https://blog.csdn.net/weixin_37677769/article/details/83580893
http://bcxw.net/article/550.html
https://blog.csdn.net/qq_38704184/article/details/86482948
https://blog.csdn.net/xiaohu21/article/details/108960672
[DB] Spark SQL的更多相关文章
- Spark SQL Thrift Server 配置 Kerberos身份认证和权限管理
转载请注明出处:http://www.cnblogs.com/xiaodf/ 之前的博客介绍了通过Kerberos + Sentry的方式实现了hive server2的身份认证和权限管理功能,本文主 ...
- Spark SQL概念学习系列之Spark SQL 架构分析(四)
Spark SQL 与传统 DBMS 的查询优化器 + 执行器的架构较为类似,只不过其执行器是在分布式环境中实现,并采用的 Spark 作为执行引擎. Spark SQL 的查询优化是Catalyst ...
- Spark SQL 初步
已经Spark Submit 2013哪里有介绍Spark SQL.就在很多人都介绍Catalyst查询优化框架.经过一年的发展后,.今年Spark Submit 2014在.Databricks放弃 ...
- 大数据技术之_19_Spark学习_03_Spark SQL 应用解析 + Spark SQL 概述、解析 、数据源、实战 + 执行 Spark SQL 查询 + JDBC/ODBC 服务器
第1章 Spark SQL 概述1.1 什么是 Spark SQL1.2 RDD vs DataFrames vs DataSet1.2.1 RDD1.2.2 DataFrame1.2.3 DataS ...
- spark SQL读取ORC文件从Driver启动到开始执行Task(或stage)间隔时间太长(计算Partition时间太长)且产出orc单个文件中stripe个数太多问题解决方案
1.背景: 控制上游文件个数每天7000个,每个文件大小小于256M,50亿条+,orc格式.查看每个文件的stripe个数,500个左右,查询命令:hdfs fsck viewfs://hadoop ...
- 通过spark sql 将 hdfs上文件导入到mongodb
功能:通过spark sql 将hdfs 中文件导入到mongdo 所需jar包有:mongo-spark-connector_2.11-2.1.2.jar.mongo-java-driver-3.8 ...
- Spark SQL笔记
HDFS HDFS架构 1.Master(NameNode/NN) 对应 N个Slaves(DataNode/NN)2.一个文件会被拆分成多个块(Block)默认:128M例: 130M ==> ...
- Spark SQL快速离线数据分析
拷贝hive-site.xml到spark的conf目录下面 打开spark的conf目录下的hive-site.xml文件 加上这段配置(我这里三个节点的spark都这样配置) 把hive中的mys ...
- Caused by: java.sql.SQLException: Failed to start database 'metastore_db' with class loader org.apache.spark.sql.hive.client.IsolatedClientLoader$$anon$1@d7c365, see the next exception for details.
解决方法:https://stackoverflow.com/questions/37442910/spark-shell-startup-errors 异常: 18/01/29 19:04:27 W ...
随机推荐
- vue封装公用弹出框方法,实现点击出现操作弹出框
vue封装公用弹出框方法,实现点击出现操作弹出框 如上图所示,这次要实现一个点击出现操作弹框的效果:并将这个功能封装成一个函数,便于在项目的多个地方使用. 具体思路是: 封装一个组件,组件保护一个插槽 ...
- 文件查找工具 find 详解(附:生产示例)
1. 文件查找:在文件系统上查找符合条件的文件 命令 解释 which 查看可执行文件的位置,只能寻找执行文件,并在PATH变量里面寻找 whereis 查看文件的位置:只能查二进制文件,说明文档,源 ...
- CIE标准色度系统(上)
一.颜色匹配 为了满足工业生产对颜色特性的定量化和标准化的需要,由国际照明委员会(CIE)的协调和指导下,先后提出CIE1931和CIE1964标准色度观察者光谱三刺激值,由此奠定了现代色度学基础. ...
- Google不兼容ShowModalDialog()弹出对话框的解决办法
<script type="text/javascript"> //弹窗函数 function openDialog() { var url = "https ...
- Day13_70_join()
join() 方法 * 合并线程 join()线程合并方法出现在哪,就会和哪个线程合并 (此处是thread和主线程合并), * 合并之后变成了单线程,主线程需要等thread线程执行完毕后再执行,两 ...
- Day 12_61_多线程的创建和启动(二)
多线程的创建和启动 * 在java中实现多线程的第二种方法 实现java.lang.Runnable接口,重写run()方法 * 推荐使用这种方式,因为实现接口还可以保留类的继承. package c ...
- C#如何优雅的多表读取
关键词:C#.SqlDataReader.IDataReader.NextResult().Read(). Load().Dapper.多表,方便索引和搜索 最近有个需求,需要读一下模具系统的模具信息 ...
- Semi-Prime(set)
Prime Number Definition An integer greater than one is called a prime number if its only positive di ...
- 从零开始使用git将本地项目上传到GitHub
直接进入主题 1. 注册GitHub(官网:https://github.com/),打开官网,右上角点击sign up注册按钮,进入注册界面,根据提示填写信息注册.
- Python数据类型之字符串类型
字符串的表示 字符串是Python中最常用的数据类型之一,必须使用成对的引号包围来表示字符串,引号可以是单引号 ' .双引号 " .三引号''' """,格式如 ...