【python-数据分析】pandas时间序列处理
1. timestamp
1.1 创建timestamp
- 自定义timestamp
- 语法:
pd.Timestamp(ts_input,tz,year,month,day,hour,minute,second,microsecond,nanosecond,tzinfo) - 代码示例:
import pandas as pd
import pytz
# 当ts_input为字符串时,一般要与tz参数搭配使用
timestamp = pd.Timestamp(ts_input="2023-01-05", tz=pytz.timezone("Asia/Shanghai"))
print(timestamp) # 2023-01-05 00:00:00+08:00
import pandas as pd
# 当ts_input为数值型时,一般要与unit参数搭配使用
timestamp = pd.Timestamp(ts_input=1672909342.246457, unit="s")
print(timestamp) # 2023-01-05 09:02:22.246457100
import pandas as pd
# 当不传ts_input时,一般要指定year,month,day,hour,minute,second等参数
import pandas as pd
timestamp = pd.Timestamp(year=2023,month=1,day=5,hour=17,minute=8,second=34)
print(timestamp) # 2023-01-05 17:08:34
- 获取当前时间戳
print(pd.Timestamp.now()) # 2023-01-05 17:48:56.629418
print(pd.Timestamp.utcnow()) # 2023-01-05 09:48:56.629418+00:00
1.2 timestamp的常用方法及属性
1.2.1 timestamp常用方法
ts.tz_localize(tz)
功能:将naive时区的timestamp本地化其他时区
参数:tz: 时区标识符
ts = pd.Timestamp("2022-01-06")
print(ts.tz) # None
ts = ts.tz_localize("Asia/Shanghai") # 本地化为北京时间
print(ts) # 2022-01-06 00:00:00+08:00
print(ts.value) # 1641398400000000000,纳秒级时间戳
1.2.2 timestamp常用属性
ts.value(查看纳秒级整型时间戳)
ts = pd.Timestamp("2022-01-06")
print(ts.value) # 1641398400000000000,纳秒级时间戳
1.3 时区及时区转换
1.3.1 时区
在python中时区信息可以在第三方库pytz中进行查看
(1)查看时区
pytz包中可以使用all_timezones和common_timezones这两个属性来查看有哪些时区。
import pytz
print(len(pytz.all_timezones)) # 595
print(pytz.all_timezones[:5]) # ['Africa/Abidjan', 'Africa/Accra', 'Africa/Addis_Ababa', 'Africa/Algiers', 'Africa/Asmara']
import pytz
print(len(pytz.common_timezones)) # 437
print(pytz.common_timezones[:5]) # ['Africa/Abidjan', 'Africa/Accra', 'Africa/Addis_Ababa', 'Africa/Algiers', 'Africa/Asmara']
(2)获取时区对象
pytz包中可以使用pytz.timezone(zone)方法来获取时区对象,zone为时区标识符,如中国上海的时区标识符为"Asia/Shanghai"
import pytz
tz = pytz.timezone('Asia/Shanghai')
tz # <DstTzInfo 'Asia/Shanghai' LMT+8:06:00 STD>
1.3.2 时区转换
(1) utc时区转其他时区(两种方式)
timestamp.astimezone(tz=None) -> Timestamp
- 代码示例
import pandas as pd
utc_ts = pd.Timestamp("2022-01-05 11:45:14",tz="utc")
print(utc_ts) # 2022-01-05 19:45:14+00:00
beijing_ts = utc_ts.astimezone(tz="Asia/Shanghai")
print(beijing_ts) # 2022-01-05 19:45:14+08:00
timestamp.tz_convert(tz=None) -> Timestamp
- 代码示例
import pandas as pd
utc_ts = pd.Timestamp("2022-01-05 11:45:14",tz="utc")
print(utc_ts) # 2022-01-05 19:45:14+00:00
beijing_ts = utc_ts.tz_convert(tz="Asia/Shanghai")
print(beijing_ts) # 2022-01-05 19:45:14+08:00
(2) 其他时区转utc时区(同时支持所有时区互转)
pd.DataFrame.tz_localize(tz, axis=0, level=None, copy=True, ambiguous='raise’, nonexistent='raise') -> Series | DataFraem
- 参数介绍:
tz: 字符串或pytz.timezone对象
axis: 定位轴
level: 如果轴为MultiIndex,则定位特定级别。否则必须为None
copy: 同时复制基础数据
ambiguous: 当时钟由于DST而向后移动时,可能会产生不明确的时间
nonexistent: 在特定时区中不存在不存在的时间,在该特定时区中由于DST而使时钟向前移动 - 代码示例
模拟一组时序数据,注意该数据中的时间我们认为是北京时间。我们的目标是把这个时间转成utc时间,并生成时间戳。
import pandas as pd
import numpy as np
grade = np.random.uniform(52,100,200).astype(np.int64)
exam_dates = pd.date_range("2023-01-01", periods=200, freq="H") # 北京时间
data = pd.DataFrame(data={"grade":grade})
data["date"] = exam_dates
data.set_index("date",inplace=True)
output:

需要特别注意的一点是:pandas中的时间序列(实质上是Timestamp对象)从时区上来讲有两种,第一种是naive时区的时间序列,即没有时区,时间序列默认的就是这种类型。另一种是time-zone aware类型,即有时区意识的时间序列,这种时间序列(时间戳)对象中保存了一个纳秒级的UTC时间戳,其值在时区转换过程中是不发生改变的。用ts.tz方法可以查看时间序列的时区,用ts.value可以查看时间序列对应的纳秒级时间戳:
print(data.index.tz) # None,默认没有时区
因此,我们如果想要将这个时间序列转到其他时区,就必须先确定它自己是哪个时区。假设我们认为这个时间序列是北京时间,那我们就必须先赋予给时间序列一个时区信息,即将该时间序列本地化到北京时区。可以使用ts.localize(tz="Asia/Shanghai")方法。
data_bj = data.localize("Asia/Shanghai")
print(data_bj.index.tz) # Asia/Shanghai
print(data_bj)
output:

现在该时间序列就有了时区信息,这样我们就可以将它转到另一个时区,可以使用ts.tz_convert(tz="utc")方法。
data_utc = data_bj.tz_convert(tz="utc")
print(data_utc.index.tz)
data_utc
output:

这样就成功的将北京时间转成utc时间了。但是从上边结果中可以看到,我们转换过来的时间戳是time zone-aware类型的,有'+00:00'的字样。要去掉这个字样,需要将time zone-aware再转为naive类型。
data_utc_naive = data_utc.tz_convert(None)
data_utc_naive
output:

如果我们需要进一步将date转换为数值型的时间戳,可以通过以下两种方式实现:
(1) 通过时间戳定义,用当前时间减去时间戳计算起点"1970-01-01"
data_utc_naive["dtime1"] = (data_utc_naive.index - pd.Timestamp("1970-01-01")) // pd.Timedelta('1ms') # utc时间转毫秒级时间戳
data_utc_naive
output:

(2) Series的values有一个视图函数view(dtype),我们可以使用该方法去查看Timestamp对象的数值型形式
# 由于视图函数转换过来的时间戳是纳秒级的,我们需要自己去除以一个进制转成我们需要的精度。
# 秒级以下的时间换算关系如下:1s=1000ms=1000us=1000ns
data_utc_naive["dtime2"] = data_utc_naive.index.values.view(dtype=np.int64) // 1000_000
data_utc_naive
output:

【python-数据分析】pandas时间序列处理的更多相关文章
- Python数据分析--Pandas知识点(三)
本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) Python数据分析--Pandas知识点(二) 下面将是在知识点一, ...
- Python数据分析--Pandas知识点(二)
本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) 下面将是在知识点一的基础上继续总结. 13. 简单计算 新建一个数据表 ...
- Python数据分析-Pandas(Series与DataFrame)
Pandas介绍: pandas是一个强大的Python数据分析的工具包,是基于NumPy构建的. Pandas的主要功能: 1)具备对其功能的数据结构DataFrame.Series 2)集成时间序 ...
- python 数据分析--pandas
接下来pandas介绍中将学习到如下8块内容:1.数据结构简介:DataFrame和Series2.数据索引index3.利用pandas查询数据4.利用pandas的DataFrames进行统计分析 ...
- Python数据分析Pandas库方法简介
Pandas 入门 Pandas简介 背景:pandas是一个Python包,提供快速,灵活和富有表现力的数据结构,旨在使“关系”或“标记”数据的使用既简单又直观.它旨在成为在Python中进行实际, ...
- Python数据分析 Pandas模块 基础数据结构与简介(一)
pandas 入门 简介 pandas 组成 = 数据面板 + 数据分析工具 poandas 把数组分为3类 一维矩阵:Series 把ndarray强大在可以存储任意数据类型可以专门处理时间数据 二 ...
- Python数据分析 之时间序列基础
1. 时间序列基础 import numpy as np import pandas as pd np.random.seed(12345) import matplotlib.pyplot as p ...
- Python数据分析Pandas库之熊猫(10分钟二)
pandas 10分钟教程(二) 重点发法 分组 groupby('列名') groupby(['列名1','列名2',.........]) 分组的步骤 (Splitting) 按照一些规则将数据分 ...
- Python数据分析Pandas库之熊猫(10分钟一)
pandas熊猫10分钟教程 排序 df.sort_index(axis=0/1,ascending=False/True) df.sort_values(by='列名') import numpy ...
- Python数据分析Pandas库数据结构(一)
pandas数据结构 1.生成一维矩阵模拟数据 import pandas as pdimport numpy as nps = pd.Series([1,2,3,4,np.nan,9,9])s2 = ...
随机推荐
- IM通讯协议专题学习(五):Protobuf到底比JSON快几倍?全方位实测!
本文由陶文分享,InfoQ编辑发布,有修订和改动. 1.前言 本系列的前几篇主要是从各个角度讲解Protobuf的基本概念.技术原理这些内容,但回过头来看,对比JSON这种事实上的数据协议工业标准,P ...
- tomcat源码分析(二)如何处理请求
概述 tomcat的核心就是处理请求, 接收Request, 建立Socket链接, 处理,返回Response. 通过前面的架构图可以知道每个Service都包括连接器Connector组件和容器C ...
- Bogus:.NET的假数据生成利器
我们在项目开发中,为了保证系统功能完整.准确性,我们都需要模拟真实数据进行测试. 今天推荐一个开源库,方便我们制造假数据测试. 01 项目简介 Bogus 是一个开源的 .NET 库,它提供了一个强大 ...
- 《刚刚问世》系列初窥篇-Java+Playwright自动化测试-10- 标签页(tab)操作 - 上篇 (详细教程)
1.简介 本来按照计划这一系列的文章应该介绍Context和Page两个内容的,但是宏哥看了官方文档和查找资料发现其实和宏哥在Python+Playwright系列文章中的大同小异,差不了多少,再在这 ...
- runoob-Lua 教程
https://www.runoob.com/lua/lua-tutorial.html Lua 特性 轻量级: 它用标准C语言编写并以源代码形式开放,编译后仅仅一百余K,可以很方便的嵌入别的程序里. ...
- 将github个人访问令牌与TortoiseSVN一起使用
最近用TortoiseSVN提交到Github身份验证,总是提示无效的用户名密码,反复确认密码没输入错的.但是就是提交不了(能获取). 报错如下: 错误: No more credentials or ...
- ubuntu mysql 通过ip登录指南
详细步骤: 1. 安装mysql 首先,在ubuntu上安装mysql,打开终端,并执行以下命令: 1 sudo apt-get update 2 sudo apt-get install mysql ...
- 用 C# 写一个 .NET 垃圾回收器(二)
用 C# 写一个 .NET 垃圾回收器(二) 在第一部分中,我们准备了项目,并修复了由 NativeAOT 工具链引起的初始化问题.在本部分,我们将开始实现自己的 GC(垃圾回收器).目前的目标是构建 ...
- HTML标签-form表单
HTML标签-form表单 在Web开发中,HTML表单(form)是不可或缺的一部分,它承担着用户与Web服务器之间交互的重任.今天,我们就来详细探讨一下HTML中的form表单标签. 一.form ...
- C# 如何解决文件写权限不可访问
原文链接 实际业务中,我们可能会遇到我们的安装包将程序安装在C盘Program Files目录下后,有些文件要修改或者新增会导致拒绝访问的异常.但是我们又不想把数据放临时文件夹AppData中,那么如 ...