Pandas系列之入门篇

简介

  • pandas 是 python用来数据清洗、分析的包,可以使用类sql的语法方便的进行数据关联、查询,属于内存计算范畴,

    效率远远高于硬盘计算的数据库存储。另外pandas还提供了大数据存储的API——HDFStore,来对接HDF5。

安装

1.pandas 利用豆瓣源,速度快

pip install pandas numpy -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

2.pytables

pip install tables

3.hdf5

Download: https://www.hdfgroup.org/downloads/hdf5/source-code/

./configure
make
make check
make install

使用案例

上网流量数据:源数据以CSV文件实时生成,通过监听文件的方式做到一旦有新的CSV生成就进入数据处理流程。

总的流程大致分5部,分别是:读取CSV、数据清洗、数据分析、数据统计、存储HDF5。

关于下面用到的一些字段的解释说明:

  • user: 用户
  • tm_type: 终端类型
  • serv: 一级app分类
  • app: 二级app分类
  • record_time: 记录产生的时间
  • up_flux: 上行流量
  • down_flux: 下行流量

pandas api document: https://pandas.pydata.org/pandas-docs/stable/api.html?highlight=hdfstore

1.读取CSV

filename_src = 'xxx.csv'
col_list = ['user', 'tm_type', 'serv', 'app', 'record_time', 'up_flux', 'down_flux'] # \x01表示空格 16进制
df_flux = pd.read_csv(filename_src, sep='\x01', error_bad_lines=False, index_col=False, usecols=[3, 10, 11, 12, 15, 16, 17], names=col_list)

2.数据清洗

"""
data clean
"""
# remove null data
df_flux.dropna(inplace=True) # remove duplicates
df_flux.drop_duplicates(inplace=True)
  1. 数据分析
"""
data analysis
inner join v_student_net(inner join)
refer column: user
"""
conn = MySQLdb.connect(host, user, passwd, database, charset='utf8')
cur = conn.cursor()
sql = 'select outid, username from v_student_net'
cur.execute(sql)
results = cur.fetchall()
df_student_net = pd.DataFrame(list(results), columns=['outid', 'user']) # inner join df_flux, v_student_net
df_flux = pd.merge(df_flux, df_student_net, on='user')
  1. 数据统计
"""
data statistics
group by: record_date, outid, serv, app
aggregate by: up_flux, down_flux
sort by: down_flux with desc
"""
# as_index=False,default True
grouped = df_flux.groupby(['record_date', 'outid', 'serv', 'app'], as_index=False)
df_flux = grouped.agg({'up_flux': 'sum', 'down_flux': 'sum'}).sort_values('down_flux', ascending=False)
  1. 存储HDF5
"""
store in hdf5
"""
hdf5_filepath = 'xxx.h5'
store = pd.HDFStore(hdf5_filepath, complevel=1, complib='bzip2')
store.put('flux', df_flux, format='table', append=True, data_columns=True)

总结

从上面的例子可以看到,pandas处理数据是相当的简洁明了,存储hdf5更是两句话就搞定。当然这里面会有相当多注意的细节,稍有不慎就会导致意想不到的结果,我将会在下一篇介绍。

要学好pandas,api文档必须要精通!

Pandas系列之入门篇的更多相关文章

  1. Pandas系列之入门篇——HDF5

    Pandas系列之入门篇--HDF5 简介 HDF5(层次性数据格式)作用于大数据存储,其高效的压缩方式节约了不少硬盘空间,同时也给查询效率带来了一定的影响, 压缩效率越高,查询效率越低.pandas ...

  2. Python系列之入门篇——HDFS

    Python系列之入门篇--HDFS 简介 HDFS (Hadoop Distributed File System) Hadoop分布式文件系统,具有高容错性,适合部署在廉价的机器上.Python ...

  3. Python系列之入门篇——MYSQL

    Python系列之入门篇--MYSQL 简介 python提供了两种mysql api, 一是MySQL-python(不支持python3),二是PyMYSQL(支持python2和python3) ...

  4. 【转】C# 串口操作系列(1) -- 入门篇,一个标准的,简陋的串口例子。

    C# 串口操作系列(1) -- 入门篇,一个标准的,简陋的串口例子. 标签: c#objectnewlineexceptionbytestring 2010-05-17 01:10 117109人阅读 ...

  5. C# 串口操作系列(2) -- 入门篇,为什么我的串口程序在关闭串口时候会死锁 ?

    第一篇文章我相信很多人不看都能做的出来,但是,用过微软SerialPort类的人,都遇到过这个尴尬,关闭串口的时候会让软件死锁.天哪,我可不是武断,算了.不要太绝对了.99.9%的人吧,都遇到过这个问 ...

  6. Python系列之入门篇——python2.7.13安装

    Python2.7.13 安装 说明 以下所有操作都基于centos6.9 1. Issue zlib zlib-devel是安装setuptools依赖的模块,需要在安装python之前先安装这两个 ...

  7. Docker系列之入门篇

    Dcoker是什么? 概述 Docker 是世界领先的软件容器平台.开发人员利用 Docker 可以消除协作编码时“在我的机器上可正常工作”的问题.运维人员利用 Docker 可以在隔离容器中并行运行 ...

  8. Python系列之入门篇——pytables及其客户端

    pytables及其客户端查看 pytables # ubuntu sudo apt-get install python-tables pip install flask flask-httpaut ...

  9. Redis系列一 - 入门篇

    问:项目中为何要选用Redis? 答:传统的关系型数据库(如MySQL)已经不适用所有的场景了,比如美云销抢单活动的库存扣减,APP首页的访问流量高峰等等,都容易把数据库打崩,所以引入了缓存中间件,目 ...

随机推荐

  1. POJ3621 Sightseeing Cows(最优比率环)

    题目链接:id=3621">http://poj.org/problem?id=3621 在一个有向图中选一个环,使得环上的点权和除以边权和最大.求这个比值. 经典的分数规划问题,我认 ...

  2. 【Java入门提高篇】Day10 Java代理——静态代理

    今天要介绍的是一个Java中一个很重要的概念--代理. 什么是代理?联系生活想想看,代理似乎并不陌生,最形象的代表便是经纪人,明星一般都有经纪人,经纪人作为中间人,负责代理明星的相关事宜,比如说,有人 ...

  3. 查询linux版本命令

    [环境] Ubuntu [本文命令记录] uname -a lsb_release cat /etc/issue cat /proc/version [截图效果] (1)uname -a (2)lsb ...

  4. 基于python的web应用开发-添加关注者

    社交web允许用户之间相互联系. 例如: 关注者.好友.联系人.联络人或伙伴. 记录两个用户之间的定向联系,在数据库查询中也要使用这种联系. 一.论数据库关系 一对多关系 数据库使用关系建立记录之间的 ...

  5. Chef 自动化运维:Chef 的安装

    安装准备 准备三台服务器,分别用作 Chef Server.Chef DK.Chef Client 的安装使用. 在三台服务器中,添加以下 hosts: vim /etc/hosts 192.168. ...

  6. javascript-发布订阅模式

    说明:本篇文章转载自小火柴的蓝色理想的一篇博文.原文地址:http://www.cnblogs.com/xiaohuochai/p/8031564.html 发布-订阅模式又叫观察者模式,它定义对象间 ...

  7. 《程序员的思维修炼:开发认知潜能的九堂课》【PDF】下载

    <程序员的思维修炼:开发认知潜能的九堂课>[PDF]下载链接: https://u253469.ctfile.com/fs/253469-231196325 内容简介 运用一门程序设计语言 ...

  8. 小白的Python之路 PEP8 代码风格

    转载自http://www.douban.com/note/134971609/ Python 的代码风格由 PEP 8 描述.这个文档描述了 Python 编程风格的方方面面.在遵守这个文档的条件下 ...

  9. Swift3.0 自定义tableView复用cell 的写法,与CollectionViewCell的不同,数据model

    Model数据 class HospitalModel: NSObject { //后边不赋值 会报错 var imgurl :String = "" var introducti ...

  10. iOS 进阶—— iOS 内存管理

    1 似乎每个人在学习 iOS 过程中都考虑过的问题 alloc retain release delloc 做了什么? autoreleasepool 是怎样实现的? __unsafe_unretai ...