* SparkSQL基础

起源：

1、在三四年前，Hive可以说是SQL on Hadoop的唯一选择，负责将SQL编译成可扩展的MapReduce作业。鉴于Hive的性能以及与Spark的兼容，Shark项目由此而生。

2、Shark即Hive on Spark，本质上是通过Hive的HQL解析，把HQL翻译成Spark上的RDD操作，然后通过Hive的metadata获取数据库里的表信息，实际HDFS上的数据和文件，会由Shark获取并放到Spark上运算。

3、Shark的最大特性就是快和与Hive的完全兼容，且可以在shell模式下使用rdd2sql()这样的API，把HQL得到的结果集，继续在scala环境下运算，支持自己编写简单的机器学习或简单分析处理函数，对HQL结果进一步分析计算。

历史：

1、在2014年7月1日的Spark Summit上，Databricks宣布终止对Shark的开发，将重点放到Spark SQL上。

2、Databricks表示，Spark SQL将涵盖Shark的所有特性，用户可以从Shark 0.9进行无缝的升级。

3、Databricks推广的Shark相关项目一共有两个，分别是Spark SQL和新的Hive on Spark（HIVE-7292）

4、Databricks表示，Shark更多是对Hive的改造，替换了Hive的物理执行引擎，因此会有一个很快的速度。然而，不容忽视的是，Shark继承了大量的Hive代码，因此给优化和维护带来了大量的麻烦。

SparkSQL与HIVE集成

1、拷贝hive-site.xml到spark-conf目录下

2、$ mkdir externaljars

3、拷贝hive下面的mysql驱动到spark的externaljars目录下

4、启动Spark-Shell

$ bin/spark-shell --master local[2] --jars externaljars/mysql-connector-java-5.1.27-bin.jar

在SparkSQL中读取表的两种方式：

方式一：

直接使用sqlContext对象执行sql语句，返回一个DataFrame对象，然后我们就可以show一下表中的内容了

scala> val df = sqlContext.sql("select * from track_log")

scala> df.show

方式二：

使用DSL(Domain specific language)语句

scala> val df = sqlContext.table("track_log")

scala> df.select("id", "sessionid").show

测试练习：

案例中涉及到的数据在之前的Hive章节中已经有所介绍，数据也提供了传送门下载地址，不再赘述，内容如下：

案例一：尝试使用sqlContext查询一张表，将部门编号相同的信息统一join到一起。

案例二：尝试使用spark-sql运行如下命令

Step1、启动spark-sql

$ bin/spark-sql

Step2、将表直接缓存到内存中，在4040端口即可查看缓存到的表数据占用内存的大小，操作如下：

缓存表

spark-sql> cache table track_log

撤销缓存的表

spark-sql>uncache table track_log

案例三：每个部门的工资按照降序排列

可以使用SparkSQL执行如下代码：

如果我们只想展示出每个部门前三名的工资，可以这样操作：

当然了，求个平均什么的，再正常不过了。

* 总结

只要你的SQL语句用得好，sparkCore理解的通透，Hive玩的6，SparkSQL就会很简单。：）

个人微博：http://weibo.com/seal13

QQ大数据技术交流群（广告勿入）：476966007


作者：Z尽际
链接：https://www.jianshu.com/p/7408b03a3c92
來源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

SparkSQL基础的更多相关文章

SparkSQL基础应用(1.3.1)
一.概述从1.3版本开始Spark SQL不再是测试版本,之前使用的SchemaRDD重命名为DataFrame,统一了Java和ScalaAPI. SparkSQL是Spark框架中处理结构化数据 ...
sparksql基础知识二
目标掌握sparksql操作jdbc数据源掌握sparksql保存数据操作掌握sparksql整合hive 要点 1. jdbc数据源 spark sql可以通过 JDBC 从关系型数据库中读取 ...
sparksql基础知识一
目标掌握sparksql底层原理掌握sparksql中DataFrame和DataSet的数据结构和使用方式掌握通过sparksql开发应用程序要点 1.sparksql概述 1.1 spar ...
SparkSQL个人记录
SparkSQL将RDD封装成一个DataFrame对象,这个对象类似于关系型数据库中的表. 一.SparkSQL入门 1.创建DataFrame 相当于数据库中的一张表,它是一个只读的表,不能在运算 ...
CarbonData：大数据融合数仓新一代引擎
[摘要] CarbonData将存储和计算逻辑分离,通过索引技术让存储和计算物理上更接近,提升CPU和IO效率,实现超高性能的大数据分析.以CarbonData为融合数仓的大数据解决方案,为金融转型打 ...
Update(Stage4)：sparksql：第3节 Dataset (DataFrame) 的基础操作 & 第4节 SparkSQL_聚合操作_连接操作
8. Dataset (DataFrame) 的基础操作 8.1. 有类型操作 8.2. 无类型转换 8.5. Column 对象 9. 缺失值处理 10. 聚合 11. 连接 8. Dataset ...
基础的 sparkSQL操作
spark连接mysql操作数据库jdbc 连接封装 package test.com import org.apache.spark.sql.{DataFrame, SparkSession} / ...
Spark入门实战系列--6.SparkSQL（中）--深入了解SparkSQL运行计划及调优
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1.1 运行环境说明 1.1.1 硬软件环境线程,主频2.2G,10G内存 l 虚拟软 ...
Spark入门实战系列--6.SparkSQL（下）--Spark实战应用
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .运行环境说明 1.1 硬软件环境线程,主频2.2G,10G内存 l 虚拟软件:VMwa ...

随机推荐

Google翻译PDF文档
Google翻译PDF文档翻译软件虽多如牛毛,但有关整段/全文翻译,堪用的软件极少, 涉及专业技术的文献.胜任翻译工作的人力稀缺.少不了project师讴心沥血. 由于多是PDF格式.即使要翻译个概 ...
linux下线程
linux下线程线程与进程的关系: 之前转载的微信文章,进程与线程的差别已经说得比較清楚了.能够查看之前转载的文章.linux进程与线程的差别. 创建一个线程: #include<pthrea ...
class.forName的官方使用方法说明
原文地址:http://yanwushu.sinaapp.com/class_forname/ 使用jdbc方式链接数据库时会常常看到这句代码:Class.forName(String classNa ...
php在数字前面补0得到固定长度数字的两种方法
比較基础,事实上两个内置函数都能实现. 1 sprintf 语法: string sprintf(string format, mixed [args]...); 返回值: 字符串函数种类: 资料 ...
hdoj 4548 美素数【打表】
另类打表:将从1到n的满足美素数条件的数目赋值给prime[n],这样最后仅仅须要用prime[L]减去prime[R-1]就可以: 美素数 Time Limit: 3000/1000 MS (Jav ...
hdoj--5606--tree(并查集)
tree Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others) Total Submi ...
zzulioj--1716--毒（模拟水题）
1716: 毒 Time Limit: 2 Sec Memory Limit: 128 MB Submit: 96 Solved: 43 SubmitStatusWeb Board Desc ...
Java 7之传统I/O - 字符类 StringReader和StringWriter
转自:https://www.xuebuyuan.com/2015312.html 这两个类将String类适配到了Reader和Writer接口,在StringWriter类实现的过程中,真正使用的 ...
Redis-1-安装
Redis-1-安装标签(空格分隔): linux,redis 下载 cd /usr/local/src/ wget http://download.redis.io/releases/redis- ...
<%=%>、<%%>、<%@%>、<%#%>的区别
1.<%= %> 里面放变量名,获取后台的变量值,直接输入变量到页面上,里面放的变量名,未经过encode eg: 后台: seession["ab"]=ab; 前台: ...

SparkSQL基础