Spark3.0中Dates和Timestamps

Spark3.0使用的是预公历，而之前都是儒略历和公历的混合（即1582年之前的日期使用儒略历，1582年之后使用公历，java.sql.Date这个API用的就是这种，而Java8里使用java.time.LocalDate代替，使用的就是Spark3.0目前的预公历），Date类型不考虑时区

Spark3.0移植了Java8中的时间戳，将更加精确

构造日期和时间戳

1、构造日期

　　make_date(),spark3.0中该函数有三个参数：YEAR，MONTH，DAY，输入参数均被隐式转换为int类型，该函数会根据预公历检查形成的日期是否是有效日期，无效则返回NULL。

>>> spark.createDataFrame([(2020, 6, 26), (1000, 2, 29), (-44, 1, 1)],

... ['Y', 'M', 'D']).createTempView('YMD')

>>> df = sql('select make_date(Y, M, D) as date from YMD')

>>> df.printSchema()

root

 |-- date: date (nullable = true)

>>> df.show()

+-----------+

|       date|

+-----------+

| 2020-06-26|

|       null|

|-0044-01-01|

+-----------+

2、构造时间戳

　　make_timestamp(), spark3.0中共有6个参数，YEAR，MONTH，DAY，HOUR，MINUTE，SECOND，其中second为decimal类型，因为时间戳中的秒可以以微秒形式传递，提高精度

>>> df = spark.createDataFrame([(2020, 6, 28, 10, 31, 30.123456),

... (1582, 10, 10, 0, 1, 2.0001), (2019, 2, 29, 9, 29, 1.0)],

... ['YEAR', 'MONTH', 'DAY', 'HOUR', 'MINUTE', 'SECOND'])

>>> df.show()

+----+-----+---+----+------+---------+

|YEAR|MONTH|DAY|HOUR|MINUTE|   SECOND|

+----+-----+---+----+------+---------+

|2020|    6| 28|  10|    31|30.123456|

|1582|   10| 10|   0|     1|   2.0001|

|2019|    2| 29|   9|    29|      1.0|

+----+-----+---+----+------+---------+

>>> ts = df.selectExpr("make_timestamp(YEAR, MONTH, DAY, HOUR, MINUTE, SECOND) as MAKE_TIMESTAMP")

>>> ts.printSchema()

root

 |-- MAKE_TIMESTAMP: timestamp (nullable = true)

>>> ts.show(truncate=False)

+--------------------------+

|MAKE_TIMESTAMP            |

+--------------------------+

|2020-06-28 10:31:30.123456|

|1582-10-10 00:01:02.0001  |

|null                      |

+--------------------------+
//转换时区只需要再加一个参数，如下

>>> df = spark.createDataFrame([(2020, 6, 28, 10, 31, 30, 'UTC'),

...     (1582, 10, 10, 0, 1, 2, 'America/Los_Angeles'),

...     (2019, 2, 28, 9, 29, 1, 'Europe/Moscow')],

...     ['YEAR', 'MONTH', 'DAY', 'HOUR', 'MINUTE', 'SECOND', 'TZ'])

>>> df = df.selectExpr('make_timestamp(YEAR, MONTH, DAY, HOUR, MINUTE, SECOND, TZ) as MAKE_TIMESTAMP')

>>> df = df.selectExpr("date_format(MAKE_TIMESTAMP, 'yyyy-MM-dd HH:mm:SS VV') AS TIMESTAMP_STRING")

>>> df.show(truncate=False)

+---------------------------------+

|TIMESTAMP_STRING                 |

+---------------------------------+

|2020-06-28 13:31:00 Europe/Moscow|

|1582-10-10 10:24:00 Europe/Moscow|

|2019-02-28 09:29:00 Europe/Moscow|

+---------------------------------+

Spark3.0中Dates和Timestamps的更多相关文章

spark-3.0 application 调度算法解析
spark 各个版本的application 调度算法还是有这明显的不同之处的.从spark1.3.0 到 spark 1.6.1.spark2.0 到现在最新的spark 3.0 ,调度算法有了一 ...
Spark3.0.1各种集群模式搭建
对于spark前来围观的小伙伴应该都有所了解,也是现在比较流行的计算框架,基本上是有点规模的公司标配,所以如果有时间也可以补一下短板. 简单来说Spark作为准实时大数据计算引擎,Spark的运行需要 ...
Spark(一)【spark-3.0安装和入门】
目录一.Windows安装 1.安装 2.使用二.Linux安装 Local模式 1.安装 2.使用 yarn模式 1.安装 2.使用 3.spark的历史服务器集成yarn 一.Windows安 ...
[译] C# 5.0 中的 Async 和 Await （整理中...）
C# 5.0 中的 Async 和 Await [博主]反骨仔 [本文]http://www.cnblogs.com/liqingwen/p/6069062.html 伴随着 .NET 4.5 和 V ...
Spring.Net在Mvc4.0中应用的说明
案例Demo:http://yunpan.cn/cJ5aZrm7Uybi3 访问密码 414b Spring.Net在Mvc4.0中应用的说明 1.引用dll 2.修改Global文件 (Spring ...
WCF学习之旅—WCF4.0中的简化配置功能（十五）
六 WCF4.0中的简化配置功能 WCF4.0为了简化服务配置,提供了默认的终结点.绑定和服务行为.也就是说,在开发WCF服务程序的时候,即使我们不提供显示的服务终结点,WCF框架也能为我们的服务提 ...
看看C# 6.0中那些语法糖都干了些什么（终结篇）
终于写到终结篇了,整个人像在梦游一样,说完这一篇我得继续写我的js系列啦. 一:带索引的对象初始化器还是按照江湖老规矩,先扒开看看到底是个什么玩意. 1 static void Main(strin ...
看看C# 6.0中那些语法糖都干了些什么（中篇）
接着上篇继续扯,其实语法糖也不是什么坏事,第一个就是吃不吃随你,第二个就是最好要知道这些糖在底层都做了些什么,不过有一点叫眼见为实,这样才能安心的使用,一口气上五楼,不费劲. 一:字符串嵌入值我想 ...
FineUI（开源版）v6.0中FState服务器端验证的实现原理
前言 1. FineUI(开源版)是完整开源,最早发起于 2008-04,下载全部源代码:http://fineui.codeplex.com/ 2. 你可以通过捐赠作者来支持FineUI(开源版)的 ...

随机推荐

第14章——高级IO函数
1.套接字超时套接字IO函数设置超时的方法有三种: (1)调用alarm. (2)select (3)使用SO_RECTIMEO和 SO_SNDTIMEO 选项上面三种方法适用于输入输出操作(re ...
给你一条sql语句如何进行优化
我们sql语句的书写是根据业务逻辑进行书写的,如果执行比较慢,那么我们对sql重写: 如分步查询,然后在代码层进行拼接:用临时表:改变sql语句的写法等等.我们称之为逻辑层优化. 然后我们看看每条sq ...
Spring源码之事务(一）— TransactionAutoConfiguration自动配置
总结: 在ConfigurationClassParser#parse()中会对deferredImportSelectorHandler进行处理(在处理@ComponentScan 自己所写@Com ...
服务器虚拟化 - PVE
服务器虚拟化 - Hypervisor 服务器虚拟化软件,也叫 Hypervisor--虚拟机管理程序,有时也称做 Virtual Machine Monitor(VMM),它可以在宿主机上创建并管理 ...
Kafka高性能揭秘：sequence IO、PageCache、SendFile的应用详解
大家都知道Kafka是将数据存储于磁盘的,而磁盘读写性能往往很差,但Kafka官方测试其数据读写速率能达到600M/s,那么为什么Kafka性能会这么高呢? 首先producer往broker发送消息 ...
微信支付回调敏感信息解密 v3 php
今天博主用了一波微信的v3版本的支付,支付成功后发现回调跟v2的完全不一样,于是去看了了一波v3的文档,发现信息是经过加密的,需要解密才能获取的到但是最悲催的是文档上没写怎么解密的,经过了一下午的百 ...
Oracle数据泵的导入和导出
前言今天王子要分享的内容是关于Oracle的一个实战内容,Oracle的数据泵. 网上有很多关于此的内容,但很多都是复制粘贴别人的,导致很多小伙伴想要使用的时候不能直接上手,所以这篇文章一定能让你更 ...
「LOJ 3153」「JOI Open 2019」三级跳
题面 LOJ 3153 solution 对于任意一对\(A,B\),若区间\([A,B]\)中存在一个数权值大于\(A\)或\(B\),则用这个数来替代\(A\)或\(B\)显然更优. 故只需要考虑 ...
[C#.NET 拾遗补漏]13：动态构建LINQ查询表达式
最近工作中遇到一个这样的需求:在某个列表查询功能中,可以选择某个数字列(如商品单价.当天销售额.当月销售额等),再选择小于或等于和大于或等于 ,再填写一个待比较的数值,对数据进行查询过滤. 如果 ...
Kafka入门之consumer
offset存放在_consumer_offsets这个topic下并且从0-49划分了50个分区: consumer会在kafka集群的所有broker中选择一个broker作为consumer ...

Spark3.0中Dates和Timestamps

Spark3.0中Dates和Timestamps的更多相关文章

随机推荐

热门专题