python数据统计，总数，平均值等

一般我们进行数据统计的时候要进行数据摸查，可能是摸查整体的分布情况啊。平均值，标准差，总数，各分段的人数啊。这时候用excel或者数据库统计都不方便。

我要统计的一个文件，太大了，还得分成15个文件，结果导一个进mysql都要导很久。再mysql进行编程，执行更久，很费事。

但是用python直接统计就很方便啦。

 @author: pc

 """

 import matplotlib as mpb

 import pandas as  pd

 import pylab as pl

 import numpy as np

 #读取文件

 #mnames=[' product_type','phone_num',' flow_total',' flow_used', 'phone_total',' phone_used' ]

 mnames=['time']

 product=pd.read_table('C:\\Users\\pc\\Desktop\\time.txt',encoding='utf-8',sep='|',header=None,names=mnames)

 # print(product['product_subtotal'])

 #选取产品小计列

 time=product['time']

 #按分位数划分区间

 cats=pd.qcut(time,[0,0.2,0.4,0.6,0.8,1.0])

 # print(cats)

 # print(pd.value_counts(cats))

 # print(product_subtotal)

 count=time.value_counts()

 #写入csv文件

 count.to_csv('C:\\Users\\pc\\Desktop\\counts9.csv')

 #输出描述性统计结果

 print(time.describe())

 #根据电话号码查询某行的值

 #num=product['phone_num']

 #print(product[product['phone_num']==18948482538])

 bins=np.arange(0,5000,100)

 pl.hist(time, bins)

但是这是适合一个一个文件算，如果存在多个文件，我们可以使用python合并后计算。

#-*-coding:utf-8-*-

import codecs

import os

filepath = "E:\\workspace\\test\\source\\usebill\\" #把要合并的文件放入一个文件夹

flist = os.listdir(filepath)

fileWrite =codecs.open("../source/alluse.txt",'w+','utf-8')#编码方便

for file in flist:

    child = os.path.join('%s%s'%(filepath,file))#连接路径

    print(child)

    fh = codecs.open(child,'r','utf-8')

    for line in fh.readlines():

        fileWrite.write(line)

fileWrite.close()

import pandas as pd

product=pd.read_table('..\\source\\alluse.txt',encoding='utf-8',sep='|',header=None)

print(product[5][:10])

print(product[5].describe())

再说下编码一个小问题吧。多数的挖掘在unicode文件进行，f=open('XXXXX', 'r')
content=f.read().decode('utf-8')这是解码成unicode

参考文件(gbk, utf-8...) decode 成为 unicode 文件编码 encode- 成为文件(gbk, utf-8...)

python数据统计，总数，平均值等的更多相关文章

python数据统计出海品牌
当国内市场处于红海之中时,市场全球化已成为大势所趋.越来越多的国产品牌远走高飞,纷纷将品牌拿出来. 2019年,中国品牌十大品牌中,华为品牌力指数同比增长22%,阿里巴巴品牌力指数增长48%,小米品牌 ...
python数据统计之禅道bug统计
背景通过定期输出每条产品的 BUG 情况,以此来反馈开发解决问题.测试跟进问题的情况:钉钉群推送提醒开发及时解决以此我这边开始着手准备编写一个小工具,最终达到目的:自动定期发送统计报告,报告维度 ...
用python实现简单EXCEL数据统计的实例
用python实现简单EXCEL数据统计的实例下面小编就为大家带来一篇用python实现简单EXCEL数据统计的实例.小编觉得挺不错的,现在就分享给大家,也给大家做个参考.一起跟随小编过来看看吧任 ...
Python数据分析之双色球高频数据统计
Step1:基础数据准备(通过爬虫获取到),以下是从第一期03年双色球开奖号到今天的所有数据整理,截止目前一共2549期,balls.txt 文件内容如下 : 备注:想要现成数据的可以给我发邮件哟~ ...
Python数据可视化的四种简易方法
摘要: 本文讲述了热图.二维密度图.蜘蛛图.树形图这四种Python数据可视化方法. 数据可视化是任何数据科学或机器学习项目的一个重要组成部分.人们常常会从探索数据分析(EDA)开始,来深入了解数据, ...
python --数据可视化（一）
python --数据可视化一.python -- pyecharts库的使用 pyecharts--> 生成Echarts图标的类库 1.安装: pip install pyecharts ...
python数据统计分析
1. 常用函数库 scipy包中的stats模块和statsmodels包是python常用的数据分析工具,scipy.stats以前有一个models子模块,后来被移除了.这个模块被重写并成为了 ...
MySQL统计总数就用count(*)，别花里胡哨的《死磕MySQL系列十》
有一个问题是这样的统计数据总数用count(*).count(主键ID).count(字段).count(1)那个效率高. 先说结论,不用那么花里胡哨遇到统计总数全部使用count(*). 但是有很多 ...
有关“数据统计”的一些概念 -- PV UV VV IP跳出率等
有关"数据统计"的一些概念 -- PV UV VV IP跳出率等版权声明:本文为博主原创文章,未经博主允许不得转载. 此文是本人工作中碰到的,随时记下来的零散概念,特此整理一下. ...

随机推荐

java 绘图
java 绘图圆形.线条.矩形.填充插入图片文字 //绘图 import java.awt.*; import javax.swing.*; public class Index extends ...
JVM实用参数（七）CMS收集器
HotSpot JVM的并发标记清理收集器(CMS收集器)的主要目标就是:低应用停顿时间.该目标对于大多数交互式应用很重要,比如web应用.在我们看一下有关JVM的参数之前,让我们简要回顾CMS收集器 ...
centOS安装网卡驱动
作为一个小白来说,安装驱动之类的真是无心下手的感觉,在学习了http://www.centoscn.com/image-text/config/2013/0816/1269.html这篇帖子的步骤之后 ...
[转帖]The Lambda Calculus for Absolute Dummies (like myself)
Monday, May 7, 2012 The Lambda Calculus for Absolute Dummies (like myself) If there is one highly ...
【转载】Understand the serialVersionUID
If you have ever implemented Serializable interface, you must encounter this warning message The ser ...
利用SQL注入漏洞登录后台的实现方法
利用SQL注入漏洞登录后台的实现方法作者: 字体:[增加减小] 类型:转载时间:2012-01-12我要评论工作需要,得好好补习下关于WEB安全方面的相关知识,故撰此文,权当总结,别无它意.读 ...
c# 文件及目录操作类
18位长度的计时周期数: DateTime.Now.Ticks.ToString() 多数是收集而来,加上测试感觉很不错,分享一下或许有些帮助吧: 引用: using System; using Sy ...
java comet
http://www.javaworld.com/article/2077995/java-concurrency/asynchronous-processing-support-in-servlet ...
单片机中用c编程时头文件reg51.h及reg52.h解析
单片机中用c编程时头文件reg51.h及reg52.h解析我们在用c语言编程是往往第一行就是reg51.h或者其他的自定义头文件,我们怎么样来理解呢? 1)“文件包含”处理. 程序的第一行是一个“文 ...
Spark Streaming源码解读之Executor容错安全性
本期内容 : Executor的WAL 消息重放数据安全的角度来考虑整个Spark Streaming : 1. Spark Streaming会不断次序的接收数据并不断的产生Job ,不断的提交J ...

python数据统计，总数，平均值等

python数据统计，总数，平均值等的更多相关文章

随机推荐

热门专题