Databricks 第9篇:Spark SQL 基础(数据类型、NULL语义)
Spark SQL 支持多种数据类型,并兼容Python、Scala等语言的数据类型。
一,Spark SQL支持的数据类型
整数系列:
- BYTE, TINYINT:表示1B的有符号整数
- SHORT, SMALLINT:表示2B的有符号整数
- INT, INTEGER:表示4B的有符号整数
- LONG, BIGINT:表示8B的有符号整数
小数系列:
- FLOAT, REAL:表示4B的单精度浮点数
- DOUBLE:表示8B的双精度浮点数
- DECIMAL, DEC, NUMERIC:表示任意精度的带符号十进制数字,精确数
日期和时间类型:
- DATE:表示日期
- TIMESTAMP:表示日期和时间
- INTERVAL:表示Calendar Interval
其他类型:
- STRING:文本类型
- BINARY:字节序列
- BOOLEAN:布尔值
复合类型:
- ARRAY<element_type>
- STRUCT<field1_name: field1_type, field2_name: field2_type, …>
- MAP<key_type, value_type>
二,Spark SQL支持的数据类型和pyspark.sql.types 之间的映射关系
- datetime.datetime 对应 TIMESTAMP
- datetime.date 对应 DATE
- list, tuple, array 对应 ARRAY<element_type> 和 STRUCT<field1_name: field1_type, field2_name: field2_type, …>
- dict 对应MAP<key_type, value_type>
- int 或 long 对应整数
- float 对应浮点小数
- decimal.Decimal 对应 精确数
- bool 对应 布尔值
- bytearray 对应 BINARY
- string 对应 文本类型
三,Spark SQL的Date和Timestamp函数
Spark SQL通常使用字符串来表示Date和Timestamp类型的值,字符串要跟Date和Timestamp相互转换,在转换时,可以设置格式参数fmt,按照特定的格式来相互转换。
fmt是格式字符串,由相应的模式来指定格式:
- dd:以两位数字显示月份中的天数
- MM:以两位数字显示月份
- yyyy:以4位数字显示年份
- HH:以2位数字显示24小时制
- ss:以2位数字显示秒数
- S:小数秒
1,表示Date或timestamp
方法1:用字符串转换为Date或timestamp
date '1970-1-03'
timestamp '1970-1-03 04:05:06.78'
方法2:把字符串按照特定的格式转换为Date或timestamp
to_date(date_str[,fmt])
to_timestamp(timestamp_str[,fmt])
方法2:用数字构造Date或timestamp
make_date(year,month,day)
make_timestamp(year,month,day,hour,min,sec[,timezone])
2,把Date和timestamp转换为string
date_format(timestamp,fmt)
举个例子,把Date和timestamp按照特定的格式转换位字符串:
select date_format(date '1970-1-03', "yyyy-MM-dd");
--1970-01-03
select date_format(timestamp '1970-1-03 04:05:06.78', "yyyy-MM-dd HH:mm:ss.SS");
--1970-01-03 04:05:06.78
3,当前的Date和Timestamp
current_date()
current_timestamp()
now() -- current timestamp
4,提取Date和Timestamp的成分
field:是指year、month、day、hour、minute、second,
source:是指Date或Timestamp
date_part(field,source) year(date)
month(date)
day(date)
hour(timestamp)
minute(timestamp)
second(timestamp)
5,unixtimestamp
unix timestamp是用数字来表示timestamp
unix_timestamp([timeExp[format]]) from_unixtime(unix_time,format)
to_unix_timestamp(timeExp[,format])
6,Date和Timestamp操作
以day或month为单位来对Date和Timestamp进行操作:
add_months(start_date,num_months)
months_between(timestamp1,timestamp2[,roundOff]) date_add(start_date,num_days)
date_sub(start_date,num_days)
datediff(endDate,startDate)
截断到特定的时间成分:
-- truncate timestamp
date_trunc(fmt,ts) -- truncate date
trunc(date,fmt)
7,UTC时间
from_utc_timestamp(timestamp,timezone)
to_utc_timestamp(timestamp,timezone)
四,文本(literal)
文本常量是指用文本表示一个固定不变的量,
1,16进制的字节序列
X { 'num [ ... ]' | "num [ ... ]" }
2,Date 和 Timestamp Literal
DATE 'yyyy-[m]m-[d]d[T]'
TIMESTAMP 'yyyy-[m]m-[d]d[T][h]h:[m]m:[s]s.[ms][ms][ms][us][us][us][zone_id]'
五,NULL语义
Spark SQL也支持三值逻辑,任何两个值比较的结果是:True、False和Unknown,NULL代表Unknown(未知值)。
1,比较运算
NULL和任何值(包括NULL)进行比较,返回的都是NULL,为了比较NULL值,Spark提供了一个null-safe的“等于运算符” <=>,该运算符的运算逻辑是:
NULL <=> NULL,返回True
NULL <=> 任意非NULL, 返回False
2,逻辑运算符
Spark支持的逻辑运算符是AND, OR和 NOT
NOT NULL 返回NULL
NULL AND false 返回false,NULL AND true, NULL AND NULL都返回NULL
NULL OR true 返回true, NULL OR NULL,NULL OR false 都返回 NULL
3,判断NULL值的函数
ISNULL(null) 返回true
ISNAN(null) 返回false
参考文档:
SQL reference for Databricks Runtime 7.x
Databricks 第9篇:Spark SQL 基础(数据类型、NULL语义)的更多相关文章
- Oracle知识梳理(三)操作篇:SQL基础操作汇总
Oracle知识梳理(三)操作篇:SQL基础操作汇总 一.表操作 1.表的创建(CREATE TABLE): 基本语句格式: CREATE TABLE table_name ( col_ ...
- (2.5)Mysql之SQL基础——数据类型
(2.5)Mysql之SQL基础——数据类型 关键词:mysql数据类型 目录: 一.整数型 二.小数型(以下均不能使用无符号) 三.日期时间型 四.字符串型 一.整数型 额外参数示例: int [( ...
- LINQ体验(11)——LINQ to SQL语句之Null语义和String/DateTime方法
在本系列中.主要介绍LINQ to SQL基础的东西,由于LINQ太强大了,它对我们寻常使用不同的数据源有着不同的内容,其包含对于SQL Server 数据库的LINQ to SQL:对于XML 文档 ...
- spark 机器学习基础 数据类型
spark的机器学习库,包含常见的学习算法和工具如分类.回归.聚类.协同过滤.降维等使用算法时都需要指定相应的数据集,下面为大家介绍常用的spark ml 数据类型.1.本地向量(Local Vect ...
- Spark SQL with Hive
前一篇文章是Spark SQL的入门篇Spark SQL初探,介绍了一些基础知识和API,可是离我们的日常使用还似乎差了一步之遥. 终结Shark的利用有2个: 1.和Spark程序的集成有诸多限制 ...
- 【转载】Spark SQL之External DataSource外部数据源
http://blog.csdn.net/oopsoom/article/details/42061077 一.Spark SQL External DataSource简介 随着Spark1.2的发 ...
- Spark SQL 源代码分析系列
从决定写Spark SQL文章的源代码分析,到现在一个月的时间,一个又一个几乎相同的结束很快,在这里也做了一个综合指数,方便阅读,下面是读取顺序 :) 第一章 Spark SQL源代码分析之核心流程 ...
- 【Spark SQL 源码分析系列文章】
从决定写Spark SQL源码分析的文章,到现在一个月的时间里,陆陆续续差不多快完成了,这里也做一个整合和索引,方便大家阅读,这里给出阅读顺序 :) 第一篇 Spark SQL源码分析之核心流程 第二 ...
- Databricks 第6篇:Spark SQL 维护数据库和表
Spark SQL 表的命名方式是db_name.table_name,只有数据库名称和数据表名称.如果没有指定db_name而直接引用table_name,实际上是引用default 数据库下的表. ...
随机推荐
- 使用基于Vue.js和Hbuilder的混合模式移动开发打造属于自己的移动app
近几年,混合模式移动应用的概念甚嚣尘上,受到了一些中小型企业的青睐,究其原因,混合模式开发可以比传统移动开发节约大量的开发成本和人力成本. Hybrid App(混合模式移动应用)是指介于web-ap ...
- Android 7.0应用之间共享文件
原文首发于微信公众号:躬行之,欢迎关注交流! 开发中经常需要将某个文件向另一个应用程序传递,如图片上传到另一个应用程序.文件在不同存储路径之间的复制粘贴等都需要共享文件,可以这样理解接收文件的应用是在 ...
- Python将word文档转换成PDF文件
如题. 代码: ''' #將word文档转换为pdf文件 #用到的库是pywin32 #思路上是调用了windows和office功能 ''' #导入所需库 from win32com.client ...
- [Python] iupdatable包:获取电脑主板信息(csproduct)
一.说明 使用命令行就可以获取到主板相关的信息 wmic csproduct get /value 输出内容如下: Caption=Computer System Product Descriptio ...
- day113:MoFang:种植园商城页面&充值集成Alipay完成支付的准备工作
目录 1.种植园商城页面初始化 2.规划商品种类并且构建关于商品的模型类 3.解决APP打包编译之后的跨域限制 4.商品列表后端接口实现 5.前端获取商品列表并显示 6.种植园点击充值允许用户选择充值 ...
- python实现AES/DES/RSA/MD5/SM2/SM4/3DES加密算法模板汇总
都是作者累积的,且看其珍惜,大家可以尽量可以保存一下,如果转载请写好出处https://www.cnblogs.com/pythonywy 一.md5加密 1.简介 这是一种使用非常广泛的加密方式,不 ...
- Eclipse 使用svn时出现 “Previous operation has not finished; run 'cleanup' if it was interrupted“问题
在执行svn操作的时候出现了下面的问题 commit -m "" E:/eclipse/workplace/BRobotAPP/blockly/googleDemo/blockly ...
- 一文彻底吃透MyBatis源码!!
写在前面 随着互联网的发展,越来越多的公司摒弃了Hibernate,而选择拥抱了MyBatis.而且,很多大厂在面试的时候喜欢问MyBatis底层的原理和源码实现.总之,MyBatis几乎成为了Jav ...
- js--实现限制input输入框数字输入,实现每四位一个空格效果(银行卡号,手机号等)
前言 工作学习中经常能遇到输入框限制输入数字,并且每四位一空格的情况,比如表单中银行卡号,手机号等输入框的限制,这里介绍一下使用js具体的实现方法.不需要引用第三方ui库. 正文 1.input标签的 ...
- C++语言基础——02数据的存取
常量 常量是指在程序中使用的一些具体的数.字符.在程序运行过程中,其值不能更改.如123.1.23.'a'."abc".True等. 常量的定义 const 类型 常量名 = 常量 ...