Spark2.x学习笔记：Spark SQL的SQL

Spark SQL所支持的SQL语法

select [distinct] [column names]|[wildcard]

from tableName

[join clause tableName on join condition]

[where condition]

[group by column name]

[having conditions]

[order by column names [asc|desc]]

如果只用join进行查询，则支持的语法为：

select statement

from statement

[join | inner join | left join | left semi join | left outer join | right join |right outer join | full join | full outer join]

on join condition

Spark SQL的SQL的框架

与Hive Metastore结合

（1）Spark要能找到HDFS和Hive的配置文件

第1种方法：可以直接将core-site.xml、hdfs-site.xml和hive-site.xml复制到Spark安装目录下的conf目录中。该方法存在一个缺陷，如果HDFS或Hive的配置修改了，则需要手动修改Spark对应的配置文件。
第2种方法：在Spark配置文件中指定Hadoop配置文件目录

（2）Spark SQL与Hive Metastore结合，直接使用spark.sql(“select … from table where …”)

15.4 实例演示

（1）spark-shell

[root@node1 ~]# spark-shell

// :: WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

Spark context Web UI available at http://192.168.80.131:4040

Spark context available as 'sc' (master = local[*], app id = local-).

Spark session available as 'spark'.

Welcome to

      ____              __

     / __/__  ___ _____/ /__

    _\ \/ _ \/ _ `/ __/  '_/

   /___/ .__/\_,_/_/ /_/\_\   version 2.2.

      /_/

Using Scala version 2.11. (Java HotSpot(TM) -Bit Server VM, Java 1.8.0_112)

Type in expressions to have them evaluated.

Type :help for more information.

scala> spark.sql("show databases").show

+------------+

|databaseName|

+------------+

|     default|

|        test|

+------------+

scala> spark.sql("show tables").show

+--------+---------+-----------+

|database|tableName|isTemporary|

+--------+---------+-----------+

| default|  copyemp|      false|

| default|     demo|      false|

| default|     dept|      false|

| default|     dual|      false|

| default|      emp|      false|

| default|   empbak|      false|

| default|employees|      false|

| default|     mytb|      false|

| default|    users|      false|

+--------+---------+-----------+

scala> spark.sql("select * from emp").show

+----+------+---------+----+----------+------+------+----+

| eid| ename|      job| mgr|  hiredate|   sal|  comm| did|

+----+------+---------+----+----------+------+------+----+

|| CLARK|  MANAGER||--|2450.0|   0.0|  |

||  KING|PRESIDENT|   |--|5000.0|   0.0|  |

||MILLER|    CLERK||--|1300.0|   0.0|  |

|| SMITH|    CLERK||--| 800.0|   0.0|  |

|| JONES|  MANAGER||--|2975.0|   0.0|  |

||  FORD|  ANALYST||--|3000.0|   0.0|  |

|| ALLEN| SALESMAN||--|1600.0| 300.0|  |

||  WARD| SALESMAN||--|1250.0| 500.0|  |

||MARTIN| SALESMAN||--|1250.0|1400.0|  |

|| BLAKE|  MANAGER||--|2850.0|   0.0|  |

||TURNER| SALESMAN||--|1500.0|   0.0|  |

|| JAMES|    CLERK||--| 950.0|   0.0|  |

||HADRON|     null|null|--|6666.0|  null|null|

+----+------+---------+----+----------+------+------+----+

（2）spark-sql

[root@node1 ~]# spark-sql

// :: WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

// :: WARN ObjectStore: Version information not found in metastore. hive.metastore.schema.verification is not enabled so recording the schema version 1.2.

// :: WARN ObjectStore: Failed to get database default, returning NoSuchObjectException

spark-sql> show databases;

default

test

Time taken: 3.93 seconds, Fetched  row(s)

spark-sql> show tables;

default copyemp false

default demo    false

default dept    false

default dual    false

default emp false

default empbak  false

default employees   false

default mytb    false

default users   false

Time taken: 0.145 seconds, Fetched  row(s)

spark-sql> select * from emp;

    CLARK   MANAGER     --  2450.0  0.0

    KING    PRESIDENT      --  5000.0  0.0

    MILLER  CLERK       --  1300.0  0.0

    SMITH   CLERK       --  800.0   0.0

    JONES   MANAGER     --  2975.0  0.0

    FORD    ANALYST     --  3000.0  0.0

    ALLEN   SALESMAN        --  1600.0  300.0

    WARD    SALESMAN        --  1250.0  500.0

    MARTIN  SALESMAN        --  1250.0  1400.0

    BLAKE   MANAGER     --  2850.0  0.0

    TURNER  SALESMAN        --  1500.0  0.0

    JAMES   CLERK       --  950.0   0.0

    HADRON  NULL    NULL    --  6666.0  NULL    NULL

Time taken: 3.266 seconds, Fetched  row(s)

spark-sql>

Spark2.x学习笔记：Spark SQL的SQL的更多相关文章

Docker学习笔记之--安装mssql(Sql Server)并使用Navicat连接测试(环境：centos7)
前一节演示如何使用Nginx反向代理 .net Core项目容器,地址:Docker学习笔记之-部署.Net Core 3.1项目到Docker容器,并使用Nginx反向代理(CentOS7)(二) ...
Python 学习笔记：Python 操作 SQL Server 数据库
最近要将数据写到数据库里,学习了一下如何用 Python 来操作 SQL Server 数据库. 一.连接数据库: 首先,我们要连接 SQL Server 数据库,需要安装 pymssql 这个第三方 ...
Oracle学习笔记十使用PL/SQL
PL/SQL 简介 PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言,是对 SQL 的扩展,它支持多种数据类型,如大对象和集合类型,可使用 ...
大数据学习笔记——Spark完全分布式完整部署教程
Spark完全分布式完整部署教程继Mapreduce之后,作为新一代并且是主流的计算引擎,学好Spark是非常重要的,这一篇博客会专门介绍如何部署一个分布式的Spark计算框架,在之后的博客中,更会 ...
Spark2.x学习笔记：Spark SQL快速入门
Spark SQL快速入门本地表 (1)准备数据 [root@node1 ~]# mkdir /tmp/data [root@node1 ~]# cat data/ml-1m/users.dat | ...
Spark2.x学习笔记：Spark SQL程序设计
1.RDD的局限性 RDD仅表示数据集,RDD没有元数据,也就是说没有字段语义定义. RDD需要用户自己优化程序,对程序员要求较高. 从不同数据源读取数据相对困难. 合并多个数据源中的数据也较困难. ...
sql注入学习笔记，什么是sql注入，如何预防sql注入，如何寻找sql注入漏洞，如何注入sql攻击（原）
(整篇文章废话很多,但其实是为了新手能更好的了解这个sql注入是什么,需要学习的是文章最后关于如何预防sql注入) (整篇文章废话很多,但其实是为了新手能更好的了解这个sql注入是什么,需要学习的是文 ...
JAVA jdbc(数据库连接池)学习笔记（二） SQL注入
PS:今天偶然间发现了SQL的注入...所以就简单的脑补了一下,都是一些简单的例子...这篇写的不怎么样...由于自己没有进行很深的研究... 学习内容: 1.SQL注入的概念... 所谓SQL注 ...
mybatis学习笔记四（动态sql）
直接贴图,注解在代码上,其他的配置文件在学习一中就不贴了 1 数据库 2 实体类 package com.home.entity; /** * 此类是: 用户实体类 * @author hpc * @ ...

随机推荐

linux-find【递归搜索文件名】
1 命令格式: $ find <指定目录> <指定条件> <指定动作> 最常见示例:查找文件名(忽略大小写) $find . -iname sqlquery.j ...
让A超链接无效的办法阻止元素发生默认的行为
$("a").click(function(event){ event.preventDefault(); }); event.preventDefault(); 方法阻止元素发生 ...
LeetCode 19 Remove Nth Node From End of List (移除距离尾节点为n的节点)
题目链接 https://leetcode.com/problems/remove-nth-node-from-end-of-list/?tab=Description Problem: 移除距离 ...
vue钩子生命周期
1.beforeCreate // 组件实例刚刚被创建2.created // 实例已经创建完成3.beforeMount // 模板编译之 ...
JDBC的驱动是如何加载的
注:本文出处:http://www.cnblogs.com/jiaoyiping/ 转载请保留出处 JDBC定义了一套接口,数据库产品的提供商会实现这些接口来提供自己的数据库驱动程序,这是个很好的面向 ...
23种设计模式之抽象工厂（Abstract Factory）
抽象工厂模式又称为Kit模式,属于对象创建型模式.抽象工厂模式是所有形式的工厂模式中最为抽象和最具一般性的一种形态,它提供了一个创建一系列相关或相互依赖对象的接口,而无需指定它们具体的类.在抽象工厂模 ...
python 测试框架之---testtools
在tempest框架中,使用的是testtools为基础框架来运行接口自动化一.初识 testools是属于python中诸多自动化框架中的一个,官方文档如下: http://testtools.r ...
Unity3D笔记英保通六角色控制器
一.角色控制器 U3D有两种角色控制方式:Rigidbody刚体.角色控制器组件(胶囊体组件) 面试的题目中经常会遇到这个问题: CharacterController和Rigidbody的区别? 这 ...
yii---模型的创建
在 model/ 路径新建 Test.php 模型我们类的名称一定要与数据表的名称相同. 继承 yii\db\ActiveRecord 类: 在模型类中声明 tableName() 指定表名 // ...
DBCP连接池配置(DBCPUtils.java)
配置文件 db_dbcp.properites driverClass=com.mysql.jdbc.Driver url=jdbc:mysql://127.0.0.1:3306/db?useSSL= ...

Spark2.x学习笔记：Spark SQL的SQL

Spark SQL所支持的SQL语法

Spark SQL的SQL的框架

与Hive Metastore结合

15.4 实例演示

Spark2.x学习笔记：Spark SQL的SQL的更多相关文章

随机推荐

热门专题