spark教程(10)-sparkSQL

努力的孔子 2024-11-07 00:35:43 原文

sparkSQL 的由来

我们知道最初的计算框架叫 mapreduce，他的缺点是计算速度慢，还有一个就是代码比较麻烦，所以有了 hive；

hive 是把类 sql 的语句转换成 mapreduce，解决了开发难的问题，但是 hive 的底层还是 mapreduce，仍然是慢；

spark 也看到了 hive 的优势，以 hive 为中心的一套框架 shark 营运而生，它是 spark 的前身，h 就是 hive 的意思；

但是为了提高 shark 的效率，spark 自己开发了一套算法，替代了之前 hive 的思路，这套算法就是 sparkSQL

sparkSQL 简介

sparkSQL 是 spark 专门处理结构化数据的一个模块，也就是像数据表一样的数据，处理方式就是像 sql 一样；

换句话说，sparkSQL 使用 sql 的方式代替了之前数据处理的方式。

sparkSQL 提供了两个编程抽象：DataFrame 和 DataSet，起到了分布式 SQL 查询引擎的作用；

sparkSQL 把 sql 语句和 dataFrame、dataSet 转换成了 RDD，执行效率非常快；

也就是说 dataFrame、dataSet 的底层仍然是 RDD，并且可以互相转换

sparkSQL 的特点

官方解释

易整合：

兼容 hive：

统一的数据访问方式：用同样的方式读取各类文件

标准的数据库连接：可以通过 JDBC 或者 ODBC 连接标准数据库

后面会详细解释。

sparkSQL vs DB Hive

spark教程(10)-sparkSQL的更多相关文章

spark教程(11)-sparkSQL 数据抽象
数据抽象 sparkSQL 的数据抽象是 DataFrame,df 相当于表格,它的每一行是一条信息,形成了一个 Row Row 它是 sparkSQL 的一个抽象,用于表示一行数据,从表现形式上看, ...
spark教程(18)-sparkSQL 自定义函数
sparkSQL 也允许用户自定义函数,包括 UDF.UDAF,但没有 UDTF 官方 API class pyspark.sql.UDFRegistration(sparkSession)[sour ...
spark教程(19)-sparkSQL 性能优化之谓词下推
在 sql 语言中,where 表示的是过滤,这部分语句被 sql 层解析后,在数据库内部以谓词的形式出现: 在 sparkSQL 中,如果出现 where,它会现在数据库层面进行过滤,一般数据库会有 ...
Spark教程——（11）Spark程序local模式执行、cluster模式执行以及Oozie/Hue执行的设置方式
本地执行Spark SQL程序: package com.fc //import common.util.{phoenixConnectMode, timeUtil} import org.apach ...
node-webkit教程(10)Platform Service之File dialogs
node-webkit教程(10)Platform Service之File dialogs 文/玄魂目录 node-webkit教程(10)Platform Service之File dialog ...
Hadoop3.0新特性介绍，比Spark快10倍的Hadoop3.0新特性
Hadoop3.0新特性介绍,比Spark快10倍的Hadoop3.0新特性 Apache hadoop 项目组最新消息,hadoop3.x以后将会调整方案架构,将Mapreduce 基于内存+io+ ...
【译】ASP.NET MVC 5 教程 - 10：添加验证
原文:[译]ASP.NET MVC 5 教程 - 10:添加验证在本节中,我们将为Movie模型添加验证逻辑,并确认验证规则在用户试图使用程序创建和编辑电影时有效. DRY 原则 ASP.NET M ...
Linux pwn入门教程(10)——针对函数重定位流程的几种攻击
作者:Tangerine@SAINTSEC 本系列的最后一篇感谢各位看客的支持感谢原作者的付出一直以来都有读者向笔者咨询教程系列问题,奈何该系列并非笔者所写[笔者仅为代发]且笔者功底薄弱,故无法解 ...
spark教程
某大神总结的spark教程, 地址 http://litaotao.github.io/introduction-to-spark?s=inner

随机推荐

django 网站上传资源的显示与配置
1. 上传资源的配置 1. 首先在项目里创建一个名称叫media的文件夹专门保存用户上传 2. settings.py文件配置上传资源的路径 # 上传资源路径,如果图片,上传文件等 MEDIA_UR ...
Leetcode题目22.括号生成（动态规划-中等）
题目描述: 给出 n 代表生成括号的对数,请你写出一个函数,使其能够生成所有可能的并且有效的括号组合. 例如,给出 n = 3,生成结果为: [ "((()))", "( ...
当 springboot 部署war包，tomcat报一堆无法解决的问题时
直接打包 jar即可,这样就可以解决这些问题了.
SRS之监听端口的管理：RTMP
1. 监听端口管理的入口函数监听端口的管理入口在 run_master 函数中,如下: int run_master() { ... if ((ret = _srs_server->liste ...
LeetCode 82. 删除排序链表中的重复元素 II（Remove Duplicates from Sorted List II）
题目描述给定一个排序链表,删除所有含有重复数字的节点,只保留原始链表中没有重复出现的数字. 示例 1: 输入: 1->2->3->3->4->4->5 输出: ...
【黑马JavaSE】1_1_11_IDEA、12_方法、13_重载
文章目录 1_1_11_01开发工具IntelliJ IDEA 1.3 创建包.查看包的目录结构 1.5 字体设置(File->Settings->Editor->Font) 1.6 ...
python 面对对象类(继承, 多态)
继承,继承其它实例化样本的属性和方法,需要在声明里重新定义和使用 class School(object): def __init__(self, name, addr): self.name = n ...
JNI使用常见错误
1. java.lang.UnsatisfiedLinkError: Couldn't load hello: **findLibrary returned null** 解决方案: * 如果处理器平 ...
【SQL】MySQL---using的用法
学习记录: mysql中using的用法为: using()用于两张表的join查询,要求using()指定的列在两个表中均存在,并使用之用于join的条件
根据json生成java实体类
之前一篇讲过了XML转java实体对象,使用的是JAXB技术,今天给大家推荐一个在线转json到java实体对象: http://www.bejson.com/json2javapojo/new/ 转 ...