pandas dataframe 时间字段 diff 函数
pandas
pandas 是数据处理的利器,非常方便进行表格数据处理,用过的人应该都很清楚,没接触的可以自行查阅pandas 官网。
需求介绍
最近在使用 pandas 的过程中碰到一个问题,需要计算数据中某时间字段下一行相对上一行的时间差,之前有用过 dataframe 的 diff 函数,但是官方的教程里只介绍了数值字段的操作,即结果为当前行减去上一行的差值,所以直观的以为时间字段无法进行此项操作。于是我使用了最原始的方式,循环遍历 dataframe 每一行,逐行求时间差,将其存入数组中,最后此数组即为结果。
解决方案
今天,再看代码的时候,想到为什么不尝试一下 diff 对于时间字段到底会得到什么结果呢?于是尝试了一下,并发现了些新东西,本文就将这个过程记录一下。
数据存在 csv 文件中,内容如下:
time
2020-02-01 8:00
2020-02-01 8:10
2020-02-01 8:20
2020-02-01 8:30
2020-02-01 8:40
2020-02-01 9:00
2020-02-01 9:10
2020-02-01 9:40
2020-02-01 10:00
2020-02-02 10:00
读取文件,并进行 diff 操作,代码段如下:
import pandas as pd
df = pd.read_csv('/your/file/path.csv', parse_dates=['time'])
time_diff = df['time'].diff()
print(time_diff)
其中 read_csv 为从硬盘中读取文件,parse_dates=['time'] 表示将 time 字段解析为时间。得到如下结果:
0 NaT
1 0 days 00:10:00
2 0 days 00:10:00
3 0 days 00:10:00
4 0 days 00:10:00
5 0 days 00:20:00
6 0 days 00:10:00
7 0 days 00:30:00
8 0 days 00:20:00
9 1 days 00:00:00
Name: time, dtype: timedelta64[ns]
从中我们可以看出, diff 操作对于时间字段确实有效,并真实的得到了上下行之间的时间差,只是使用 timedelta64[ns] 进行存储,而不是我们通常想到的秒。这样我们的问题就变的简单了,只需要将结果中的 timedelta64[ns] 类型转为秒数就可以了,之前从未接触过 timedelta64[ns] 字段,如何转呢?google 了一下,找到一个非常简单的解决方案,只需要将 timedelta64[ns] 强制转为 timedelta64[s] 即可,如下:
time_diff = time_diff.astype('timedelta64[s]')
print(time_diff)
结果如下:
0 NaN
1 600.0
2 600.0
3 600.0
4 600.0
5 1200.0
6 600.0
7 1800.0
8 1200.0
9 86400.0
Name: time, dtype: float64
可以看到,我们已经得到了以秒数为单位的上下行时间差,达到了想要的效果。
One more thing
我司推出了悟空流程化数据处理平台,访问地址:https://wk.phitrellis.com/,无需复杂的 Excel 公式和编程,即可完成上述计算时间差以及其他常用数据分析操作(包含100+常用操作和如站点数据处理等业务类操作),并可像流程图一样实现链式操作,欢迎尝试并提出宝贵意见!
pandas dataframe 时间字段 diff 函数的更多相关文章
- mysql 时间字段的函数 timestamp
Mysql 里格式 时间字段的函数 DATE_FORMAT unix_timestamp - 墨墨修行的日志 - 网易博客http://jjuanxi.blog.163.com/blog/static ...
- SQLITE 时间字段操作函数
SQLite中的时间日期函数 这是我学习SQLite时做的笔记,参考并翻译了Chris Newman写的<SQLite>中的<Working with Dates and Times ...
- Python时间处理,datetime中的strftime/strptime+pandas.DataFrame.pivot_table(像groupby之类 的操作)
python中datetime模块非常好用,提供了日期格式和字符串格式相互转化的函数strftime/strptime 1.由日期格式转化为字符串格式的函数为: datetime.datetime.s ...
- pandas DataFrame apply()函数(1)
之前已经写过pandas DataFrame applymap()函数 还有pandas数组(pandas Series)-(5)apply方法自定义函数 pandas DataFrame 的 app ...
- pandas DataFrame apply()函数(2)
上一篇pandas DataFrame apply()函数(1)说了如何通过apply函数对DataFrame进行转换,得到一个新的DataFrame. 这篇介绍DataFrame apply()函数 ...
- pandas DataFrame.shift()函数
pandas DataFrame.shift()函数可以把数据移动指定的位数 period参数指定移动的步幅,可以为正为负.axis指定移动的轴,1为行,0为列. eg: 有这样一个DataFrame ...
- pandas DataFrame applymap()函数
pandas DataFrame的 applymap() 函数可以对DataFrame里的每个值进行处理,然后返回一个新的DataFrame: import pandas as pd df = pd. ...
- 【跟着stackoverflow学Pandas】add one row in a pandas.DataFrame -DataFrame添加行
最近做一个系列博客,跟着stackoverflow学Pandas. 以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序: https://stack ...
- 如何通过Elasticsearch Scroll快速取出数据,构造pandas dataframe — Python多进程实现
首先,python 多线程不能充分利用多核CPU的计算资源(只能共用一个CPU),所以得用多进程.笔者从3.7亿数据的索引,取200多万的数据,从取数据到构造pandas dataframe总共大概用 ...
随机推荐
- SSH 框架常见错误
新手学习SSH框架的时候总会遇到很多问题,一碰到404 或者500错误就不知道怎么解决. 404错误是很常见的一个错误,如果没有用框架基本上只可能是没有这个路径或者文件,但是用了框架之后404的原因就 ...
- Kafka处理请求的全流程分析
大家好,我是 yes. 这是我的第三篇Kafka源码分析文章,前两篇讲了日志段的读写和二分算法在kafka索引上的应用 今天来讲讲 Kafka Broker端处理请求的全流程,剖析下底层的网络通信是如 ...
- RabbitMQ小记(一)
1.了解消息中间件 消息中间件,Message Queue Middleware,简称MQ,又称消息对列或消息对列中间件,利用高效可靠的消息传递机制进行与平台无关的数据交流,并基于数据通信来进行分布式 ...
- mysql笔记--基础知识
SQL基础 SQL语句的分类: DQL: 数据库查询语句,基本的就是select查询命令,用于查询数据 DML: 数据操纵语句,用于插入,更新,删除数据,即INSERT, UPDATE,DELETE ...
- 批处理文件的@echo off
转载:https://blog.csdn.net/zl1zl2zl3/article/details/79218448 @echo off 关闭回显 @echo on 打开回显 ...
- matlab中figure 创建图窗窗口
来源:https://ww2.mathworks.cn/help/matlab/ref/figure.html?searchHighlight=figure&s_tid=doc_srchtit ...
- AA.Dapper升级了
AA.Dapper基于dapper进一步封装而成的orm框架,提供增删改查.分页.事务.原生sql的功能,以满足日常的业务开发. 1.Repository层: DapperRepository类包含大 ...
- IntelliJ IDEA 调试 Java 8 Stream,实在太香了!
前段时间,栈长发布了一篇关于 Java 8 Optional.map 的实用文章,留言区就有的人说 Java 8 的语法糖不方便调试,还要视情况使用. 留言区也有人说 IntelliJ IDEA 早已 ...
- js 正则表达式 判断val是不是整数
function isIntNum(val){ var regPos = / ^\d+$/; // 非负整数 // var regNeg = /^\-[1-9][0-9]*$/; // 负整数 if( ...
- ORA-00019: maximum number of session licenses exceeded 超出最大会话许可数
ORA-00019: maximum number of session licenses exceededORA-00019: 超出最大会话许可数 Cause: All licenses ...