python pandas 对带时间序列的数据进行重采样处理

今天老板要处理一批带有时间序列的数据，源数据为1秒钟一行的csv数据，处理之后变成15分钟一行的数据。

源数据示例如下：

               time     B00    B01      ...           RollMean2.5     RollMean10

2018-05-31 09:44:39  15.212  5.071      ...                  2.97           2.99

2018-05-31 09:44:40  17.202  4.047      ...                  2.90           3.08

2018-05-31 09:44:41  10.137  4.055      ...                  2.58           2.71

2018-05-31 09:44:42  11.961  1.994      ...                  2.39           2.49

2018-05-31 09:44:43  17.157  2.019      ...                  2.44           2.53

2018-05-31 09:44:44  12.972  3.991      ...                  2.44           3.29

2018-05-31 09:44:45  20.078  6.023      ...                  2.49           3.21

具体操作步骤如下：

（1）读取csv数据：

f = pd.read_csv(os.path.join(path1, file))

（2）将time列转换为 DatetimeIndex类型作为index值，删除time列：

f.index = pd.to_datetime(f.time.values)

del f.time

（3）使用resample函数重采样数据：

# ‘15T’表示间隔15分钟，其他间隔方式可自行查看文档说明

# sum()函数表示求和，还可以用mean()函数进行平均，其他计算方式暂时不明
# resample函数中可以通过 on=‘列名’ 关键字参数设置针对其他列名的重采样操作

resample = f.resample('15T').sum()

（4）将reample写入excel：

resample.to_excel(path1+'/'+csvf[0]+'.xlsx')

整个代码示例：

import os

import sys

import copy

import numpy as np

import pandas as pd

import openpyxl

# 获取当前脚本及数据文件夹路径

path = os.path.split(sys.argv[0])[0]

# 获取当前路径下文件夹名称

dirs = [x for x in os.listdir(path) if not os.path.splitext(x)[1]]

# 遍历当前路径文件夹内文件，读取合并数据

for dir_ in dirs:

    path1 = os.path.join(path, dir_)

    files = copy.copy(os.listdir(path1))

    for file in files:

        csvf = os.path.splitext(file)

        if csvf[1] == '.csv':

            f = pd.read_csv(os.path.join(path1, file))

            f.index = pd.to_datetime(f.time.values)

            del f['time']

            resample = f.resample('15T').sum()

            print(csvf[0])

            resample.to_excel(path1+'/'+csvf[0]+'.xlsx')

问题：excel或者csv的时间表示方式有时是以小数形式进行的，这次尚未学习如何将这种时间表示形式直接转换为DatetimeIndex类型，如果有同学知道，欢迎赐教，谢谢！

python pandas 对带时间序列的数据进行重采样处理的更多相关文章

python pandas.DataFrame选取、修改数据最好用.loc，.iloc，.ix
先手工生出一个数据框吧 import numpy as np import pandas as pd df = pd.DataFrame(np.arange(0,60,2).reshape(10,3) ...
Python利用openpyxl带格式统计数据（2）- 处理mysql数据
上一篇些了openpyxl处理excel数据,再写一篇处理mysql数据的,还是老规矩,贴图,要处理的数据截图: 再贴最终要求的统计格式截图: 第三贴代码: 1 ''' 2 #利用openpyxl向e ...
Python利用openpyxl带格式统计数据（1）- 处理excel数据
统计数据的随笔写了两篇了,再来一篇,这是第三篇,前面第一篇是用xlwt写excel数据,第二篇是用xlwt写mysql数据.先贴要处理的数据截图: 再贴最终要求的统计格式截图: 第三贴代码: 1 '' ...
python pandas.Series&&DataFrame&& set_index&reset_index
参考CookBook :http://pandas.pydata.org/pandas-docs/stable/cookbook.html Pandas set_index&reset_ind ...
python requests抓取NBA球员数据，pandas进行数据分析，echarts进行可视化 (前言)
python requests抓取NBA球员数据,pandas进行数据分析,echarts进行可视化 (前言) 感觉要总结总结了,希望这次能写个系列文章分享分享心得,和大神们交流交流,提升提升. 因为 ...
Python pandas检查数据中是否有NaN的几种方法
Python pandas: check if any value is NaN in DataFrame # 查看每一列是否有NaN: df.isnull().any(axis=0) # 查看每一行 ...
基于tornado python pandas和bootstrap上传组件的mongodb数据添加工具
总体思路:基于bootstrap4的前端页面上传组件,把excel文件上传至服务器,并利用python pandas读取里面的数据形成字典列表通过pymongo 接口把数据插入或追加到mongodb ...
Python——Pandas 时间序列数据处理
介绍 Pandas 是非常著名的开源数据处理库,我们可以通过它完成对数据集进行快速读取.转换.过滤.分析等一系列操作.同样,Pandas 已经被证明为是非常强大的用于处理时间序列数据的工具.本节将介绍 ...
oracle数据据 Python+Pandas 获取Oracle数据库并加入DataFrame
import pandas as pd import sys import imp imp.reload(sys) from sqlalchemy import create_engine impor ...

随机推荐

ArryList的使用方法（基础使用-将来会不断添加）
转自:http://www.cnblogs.com/ysz12300/p/5595907.html 引入ArryList的方法->命名空间:using System.Collections; A ...
基于Ambari的WebUI部署HBase服务
基于Ambari的WebUI部署HBase服务作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.部署Ambari服务博主推荐阅读: https://www.cnblogs.co ...
opencv 矩阵操作
OpenCv矩阵操作有很多函数有mask,代表掩码,如果某位mask是0,那么对应的src的那一位就不计算,mask要和矩阵/ROI/的大小相等大多数函数支持ROI,如果图像ROI被设置,那么只处 ...
java web实现在线编辑word，并将word导出(一)
前段时间领导交代了一个需求:客户需要一个能够web在线编辑文字,如同编辑word文档一样,同时能够将编辑完成的内容导出为word文档并下载到本地. 我们选择了前台使用富文本插件的形式用于编辑内容,使用 ...
git提交时设置忽略部分文件提交
git当前提交项目时总是会提交很多东西把Debug文件也提交了在项目根目录(例如我的项目文件夹下,.sln文件的上一级目录)下建一个.gitignore文件,文件内容直接可粘贴下面的,这样 pack ...
RGB转到HSV色彩空间转换
原文链接:https://blog.csdn.net/lsg19920625/article/details/78416649
读书笔记 - js高级程序设计 - 第六章面向对象的程序设计
EcmaScript有两种属性数据属性和访问器属性数据属性有4个特性 Configurable Enumerable Writable Value 前三个值的默认值都为false ...
html_位置偏移属性position
定位属性位置属性position:static.relative.absolute.fixed 偏移属性:top.bottom.left.right 浮动定位属性:float/clear 1.浮动定 ...
BZOJ 2285 [Sdoi2011]保密
题解: 求比值用分数规划,单个求太慢了套整体二分然后求二分图最小割 // luogu-judger-enable-o2 #include<iostream> #include<cs ...
UVA 12663 第九届省赛高桥与低桥线段树
题意很简单,n个桥的高度是事先给出来的,然后有m次涨水与落水的高度,问有多少座桥在这m次涨落之后被淹超过了k次,如果某桥本身被水淹了,此时再涨水,就不能算多淹一次看下数据10的五次方,10的五次方 ...

python pandas 对带时间序列的数据进行重采样处理

python pandas 对带时间序列的数据进行重采样处理的更多相关文章

随机推荐

热门专题