Python分类统计数据

在数据的常见分布中，有一种是一对多存储的数据，即一个是key，其他改key对应的多个value。例如气象数据等，每天有很多组，又或者是一个球员，他每天得多少分等等。我做这个东西有三种方法，即：常规编程法，数据库查询法以及pandas包提供的group方法。第一种方法我自己写出的代码比较繁琐，这里不做介绍。

示例数据如下，统计每天对应的level的均值及方差等。

Date	level
2014/6/10	8.11
2014/6/10	8.02
2014/6/11	8.04
2014/6/11	8.04
2014/6/11	8.13
2014/6/11	8.12
2014/6/11	8.13
2014/6/12	8.02
2014/6/12	8.03
2014/6/12	8.04
2014/6/12	8.05
2014/6/13	7.97
2014/6/13	7.96
2014/6/13	7.97
2014/6/13	7.96
2014/6/13	7.98
2014/6/13	7.95
2014/6/13	7.94
2014/6/13	7.95
2014/6/13	7.97
2014/6/13	7.96
2014/6/13	7.93

方法1：

利用SQL查询语句，将上面的数据存储到数据库中（可以用access存储）的表中（level），然后利用下面的sql语句即可输出:

SELECT DATE as 'Date',AVG(LEVEL) as 'Mean Level' FROM LEVEL GROUP BY DATE

这样即可输入结果。

方法2：Python的pandas包提供一种group格式，即dict(字典格式)，然后利用describe方法输出统计结果。

pandas是pypi提供的众多包之一，其中提供了大量的统计方法。一般推荐安装这个包，可以在命令行管理器中使用:pip install pandas安装。

代码：

# -*- coding: utf-8 -*-

"""

Created on Mon Aug 10 21:20:29 2015

@author: zhigang

"""

'''

Stats data by date

'''

import pandas as pd

data = pd.read_excel('waterLevel.xls',sheetname = 'zx')#zx是sheet名字

print(data.head(5))

#print(data.T)

grouped = data.groupby("Date")

print(grouped.describe())

然后输出结果：

level

Date

2014-06-10 count 2.000000

mean 8.065000

std 0.063640

min 8.020000

25% 8.042500

50% 8.065000

75% 8.087500

max 8.110000

2014-06-11 count 5.000000

mean 8.092000

std 0.047645

min 8.040000

25% 8.040000

50% 8.120000

75% 8.130000

max 8.130000

2014-06-12 count 4.000000

mean 8.035000

std 0.012910

min 8.020000

25% 8.027500

50% 8.035000

75% 8.042500

max 8.050000

2014-06-13 count 11.000000

mean 7.958182

std 0.014709

min 7.930000

25% 7.950000

50% 7.960000

75% 7.970000

max 7.980000

上述的结果可以直接写入到exlce中，可将上述代码进行改动如下即可：

description = grouped.describe()

description.to_excel('stats_total.xls',sheet_name = 'stats')

效果：

如果只需要提取mean，那么修改以下代码，将结果输出到excel中：

escription = grouped.describe()

index = [i for i in range(1,len(description),8)]

#print(description.iloc[index].name,descrption.iloc[index].level)

description.iloc[index].to_excel('stats.xls',sheet_name = 'stats')

代码文件见:https://github.com/zgcao/stats.git中的d2_pandas_stats_waterlevel.py

Python分类统计数据的更多相关文章

python和数据科学(Anaconda)
Python拥有着极其丰富且稳定的数据科学工具环境.遗憾的是,对不了解的人来说这个环境犹如丛林一般(cue snake joke).在这篇文章中,我会一步一步指导你怎么进入这个PyData丛林. 你可 ...
用 Python 排序数据的多种方法
用 Python 排序数据的多种方法目录 [Python HOWTOs系列]排序 Python 列表有内置就地排序的方法 list.sort(),此外还有一个内置的 sorted() 函数将一个可迭 ...
python爬虫+数据可视化项目（关注、持续更新）
python爬虫+数据可视化项目(一) 爬取目标:中国天气网(起始url:http://www.weather.com.cn/textFC/hb.shtml#) 爬取内容:全国实时温度最低的十个城市气 ...
python调用数据返回字典dict数据的现象2
python调用数据返回字典dict数据的现象2 思考: 话题1连接:https://www.cnblogs.com/zwgbk/p/10248479.html在打印和添加时候加上内存地址id(),可 ...
python调用数据返回字典dict数据的现象1
python调用数据返回字典dict数据的现象1 思考: 可以看到这两种情况,区别在于构造函数make()里赋值给字典dict的方式不同.使用相同的调用方式,而结果却完全不同.可以看到第二种情况才是我 ...
python 小数据池,is and "==",decode ,encode
一:小数据池 1.python运行中的缓存: 2.目的:缓存我们字符串,整数,布尔值.在使用的时候不需要创建过多的对象 3.python 缓存数据:缓存:int, str, bool. ...
【转】Python用数据说明程序员需要掌握的技能
[转]Python用数据说明程序员需要掌握的技能 https://blog.csdn.net/HuangZhang_123/article/details/80497951 当下是一个大数据的时代,各 ...
Excel透视技巧-三级分类统计名单、分类统计数据
Excel透视技巧-三级分类统计名单.分类统计数据基础数据透视表1--三级分类统计名单透视表2-分类统计数据
MySQL实验准备(二)--Python模拟数据(MySQL数据库)
Python模拟数据(MySQL数据库) 数据模拟目的:模拟多个表的插入和查询数据的模拟,再通过基准测试脚本测试服务器性能和收集数据,仿真模拟. 备注: 如果需要基础的python环境,可以查看&l ...

随机推荐

常见的mongodb可视化工具
一.MongoVue 1.MongoVUE是一款比较好用的MongoDB客户端工具,可以为大家提供一个高度.简洁可用的MongoDB管理界面. 2.通过MongoVUE,用户可以用树形.表格及bj ...
JS动画理论
动画(Animation) 动画意味着随着时间而变化,尤其指视觉上的变化,包括位置.形态等的变化.运动基本上表现为物体随时间,发生位置上的变化:形态基本表现为大小.颜色.透明度.形状等随时间的变化. ...
readline函数分析
函数功能:提示用户输入命令,并读取命令/****************************************************************************/ /* ...
iscc2016-basic-明察秋毫
查看源代码,找到maybe not flag : Jr1p0zr2VfPp 移位密码,注意判断字母大小写,并且数字无变化 s = "Jr1p0zr2VfPp" p = list(s ...
转:PHP之Traits
原文来自于:http://www.cnblogs.com/tekkaman/archive/2012/12/12/2814214.html 1.Traits基础 2.优先级:当前类中的方法会覆盖 Tr ...
win32控制台实现按任意键退出的功能
win7之后的五win32 控制台出现了程序运行完之后就立即结束的问题,程序员根本无法看输出的结果.未来让控制台运行完之后能够等待程序员的操作.可以使用: system("PAUSE&quo ...
教你在Java的普通类中轻松获取Session以及request中保存的值
曾经有多少人因为不知如何在业务类中获取自己在Action或页面上保存在Session中值,当然也包括我,但是本人已经学到一种办法可以解决这个问题,来分享下,希望对你有多多少少的帮助! 如何在Java的 ...
AsyncCalls – Asynchronous function calls
AsyncCalls – Asynchronous function callsWith AsyncCalls you can execute multiple functions at the sa ...
Lua table使用
days = {"Sunday", "Monday", "Tuesday", "Wednesday", "Th ...
Spring MVC学习总结。
公司项目用的Spring MVC.顺便学习学习. 其实框架并没有想象中的复杂.尤其对于初学者,总觉得SSH是一些很复杂的东西似的.其实对初学者来说能够用这些框架就足够了.在公司里也是,基本功能会用了就 ...

Python分类统计数据

Python分类统计数据的更多相关文章

随机推荐

热门专题