最近在看时间序列分析的一些东西,中间普遍用到一个叫pandas的包,因此单独拿出时间来进行学习。

  参见 pandas 官方文档 http://pandas.pydata.org/pandas-docs/stable/index.html

  以及相关博客 http://www.cnblogs.com/chaosimple/p/4153083.html

Pandas介绍

  Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。

  Pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包,类似于 Numpy 的核心是 ndarray,pandas 也是围绕着 Series 和 DataFrame 两个核心数据结构展开的 。

  Series 和 DataFrame 分别对应于一维的序列和二维的表结构。

  通常用下列方式来引入需要的包

 import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

Series 

  Series 可以看做一个定长的有序字典,基本任意的一维数据都可以用来构造 Series 对象。
  可以通过传递一个list对象来创建一个Series,pandas会默认创建整型索引
 
>>> s = pd.Series([1,2,3.0,'a','bc'])
>>> s
0 1
1 2
2 3
3 a
4 bc
dtype: object

  Series 对象包含两个主要的属性:index 和 values,分别为上例中左右两列。因为传给构造器的是一个List,所以 index 的值是从 0 起递增的整数,如果传入的是一个类字典的键值对结构,就会生成 index-value 对应的 Series;或者在初始化的时候以关键字参数显式指定一个 index 对象。


>>> s = pd.Series(data=[1,2,3.0,'a','bc'],index = ['a','b','c','d','e'])
>>> s.name = 'example'
>>> s.index.name='New_index'
>>> s
New_index
a 1
b 2
c 3
d a
e bc
Name: example, dtype: object

>>> s.index
Index([u'a', u'b', u'c', u'd', u'e'], dtype='object')
>>> s.values
array([1, 2, 3.0, 'a', 'bc'], dtype=object)

  Series 对象的元素会严格依照给出的 index 构建,这意味着:如果 data 参数是有键值对的,那么只有 index 中含有的键会被使用;以及如果 data 中缺少响应的键,即使给出 NaN 值,这个键也会被添加。

  注意 Series 的 index 和 values 的元素之间虽然存在对应关系,但这与字典的映射不同。index 和 values 实际仍为互相独立的 ndarray 数组,因此 Series 对象的性能完全 ok。

  Series 这种使用键值对的数据结构最大的好处在于,Series 间进行算术运算时,index 会自动对齐。

  Series 与 index 都有 name 属性。

DataFrame

  DataFrame 是一个表格型的数据结构,它含有一组有序的列(类似于 index),每列可以是不同的值类型(不像 ndarray 只能有一个 dtype)。基本上可以把 DataFrame 看成是共享同一个 index 的 Series 的集合。

  DataFrame 的构造方法与 Series 类似,只不过可以同时接受多条一维数据源,每一条都会成为单独的一列

  可以通过传递一个能够被转换成类似序列结构的字典对象来创建一个DataFrame

data_dic = ({ 'A' : 1.,
'B' : pd.Timestamp(''),
'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
'D' : np.array([3] * 4,dtype='int32'),
'E' : pd.Categorical(["test","train","test","train"]),
'F' : 'foo' })
df = pd.DataFrame(data_dic)
>>> df
A B C D E F
0 1 2013-01-02 1 3 test foo
1 1 2013-01-02 1 3 train foo
2 1 2013-01-02 1 3 test foo
3 1 2013-01-02 1 3 train foo

  虽然data_dic 是个字典,但字典的键 A B C D 并非充当 DataFrame 中的 index 的角色,而是 Series 的 “name” 属性。这里生成的 DataFrame 的index 是 0 1 2 3。

>>> df.index
Int64Index([0, 1, 2, 3], dtype='int64')
>>> df.B
0 2013-01-02
1 2013-01-02
2 2013-01-02
3 2013-01-02
Name: B, dtype: datetime64[ns]

  可以通过 df.B 这样的形式访问 A B C D 代表的不同的 Series

  也可以通过传递一个numpy array,时间索引以及列标签来创建一个DataFrame

dates = pd.date_range('', periods=6)
df2 = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
>>> df2
A B C D
2013-01-01 -0.941915 -1.304691 -0.837790 -0.805101
2013-01-02 -0.665522 -2.935955 1.249425 0.902390
2013-01-03 -0.419268 0.750735 -0.547377 -0.075151
2013-01-04 1.362527 -1.059686 -1.564129 -1.267506
2013-01-05 0.719452 -0.152727 0.319914 -0.448535
2013-01-06 -0.863264 -0.548317 0.277112 1.233825
>>> df.index
Int64Index([0, 1, 2, 3], dtype='int64')
>>> df.values
array([[1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'test', 'foo'],
[1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'train', 'foo'],
[1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'test', 'foo'],
[1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'train', 'foo']], dtype=object)

 基本操作

  1. head()和tail()查看头和尾部的某几行

>>> df.head(2)
A B C D E F
0 1 2013-01-02 1 3 test foo
1 1 2013-01-02 1 3 train foo >>> df.tail(2)
A B C D E F
2 1 2013-01-02 1 3 test foo
3 1 2013-01-02 1 3 train foo

  2.  describe()快速统计

>>> df.describe()
A C D
count 4 4 4
mean 1 1 3
std 0 0 0
min 1 1 3
25% 1 1 3
50% 1 1 3
75% 1 1 3
max 1 1 3

  3. 转置

>>> df.T
0 1 2 \
A 1 1 1
B 2013-01-02 00:00:00 2013-01-02 00:00:00 2013-01-02 00:00:00
C 1 1 1
D 3 3 3
E test train test
F foo foo foo 3
A 1
B 2013-01-02 00:00:00
C 1
D 3
E train
F foo

  4. 按轴排序

>>> df.sort_index(axis=1,ascending=True)
A B C D E F
0 1 2013-01-02 1 3 test foo
1 1 2013-01-02 1 3 train foo
2 1 2013-01-02 1 3 test foo
3 1 2013-01-02 1 3 train foo
>>> df.sort_index(axis=1,ascending=False)
F E D C B A
0 foo test 3 1 2013-01-02 1
1 foo train 3 1 2013-01-02 1
2 foo test 3 1 2013-01-02 1
3 foo train 3 1 2013-01-02 1

  5. 按值进行排序

>>> df2.sort(columns='B',ascending=True)
A B C D
2013-01-02 -0.665522 -2.935955 1.249425 0.902390
2013-01-01 -0.941915 -1.304691 -0.837790 -0.805101
2013-01-04 1.362527 -1.059686 -1.564129 -1.267506
2013-01-06 -0.863264 -0.548317 0.277112 1.233825
2013-01-05 0.719452 -0.152727 0.319914 -0.448535
2013-01-03 -0.419268 0.750735 -0.547377 -0.075151
>>> df2.sort(columns='B',ascending=False)
A B C D
2013-01-03 -0.419268 0.750735 -0.547377 -0.075151
2013-01-05 0.719452 -0.152727 0.319914 -0.448535
2013-01-06 -0.863264 -0.548317 0.277112 1.233825
2013-01-04 1.362527 -1.059686 -1.564129 -1.267506
2013-01-01 -0.941915 -1.304691 -0.837790 -0.805101
2013-01-02 -0.665522 -2.935955 1.249425 0.902390

时间序列

  Pandas在对频率转换进行重新采样时拥有简单、强大且高效的功能(如将按秒采样的数据转换为按5分钟为单位进行采样的数据)。这种操作在金融领域非常常见。

>>> rng = pd.date_range('1/1/2011', periods=100, freq='S')
>>> rng[:2]
<class 'pandas.tseries.index.DatetimeIndex'>
[2011-01-01 00:00:00, 2011-01-01 00:00:01]
Length: 2, Freq: S, Timezone: None
>>> ts = pd.Series(np.random.randint(0,500,len(rng)),index=rng)
>>> ts.resample('5Min',how='sum')
2011-01-01 28117
Freq: 5T, dtype: int32

  日期和时间戳之间的转换

>>> prng = pd.period_range('1990Q1','2000Q4',freq='Q-NOV')
>>> ts = pd.Series(np.random.randn(len(prng)),prng)
>>> ts.head()
1990Q1 0.598308
1990Q2 -0.921216
1990Q3 -1.370614
1990Q4 1.962697
1991Q1 -0.019205
Freq: Q-NOV, dtype: float64
>>> ts.index = (prng.asfreq('M','e')+1).asfreq('H','s')+9
>>> ts.head()
1990-03-01 09:00 0.598308
1990-06-01 09:00 -0.921216
1990-09-01 09:00 -1.370614
1990-12-01 09:00 1.962697
1991-03-01 09:00 -0.019205
Freq: H, dtype: float64

快速学习 Python 数据分析包 之 pandas的更多相关文章

  1. Python 数据分析包:pandas 基础

    pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包 类似于 Numpy 的核心是 ndarray,pandas 也是围绕着 Series 和 DataFrame 两个核心数据 ...

  2. 快速入门 Python 数据分析实用指南

    Python 现如今已成为数据分析和数据科学使用上的标准语言和标准平台之一.那么作为一个新手小白,该如何快速入门 Python 数据分析呢? 下面根据数据分析的一般工作流程,梳理了相关知识技能以及学习 ...

  3. Python数据分析工具:Pandas之Series

    Python数据分析工具:Pandas之Series Pandas概述Pandas是Python的一个数据分析包,该工具为解决数据分析任务而创建.Pandas纳入大量库和标准数据模型,提供高效的操作数 ...

  4. Python数据分析入门之pandas基础总结

    Pandas--"大熊猫"基础 Series Series: pandas的长枪(数据表中的一列或一行,观测向量,一维数组...) Series1 = pd.Series(np.r ...

  5. 零基础学习Python数据分析

    网上虽然有很多Python学习的教程,但是大多是围绕Python网页开发等展开.数据分析所需要的Python技能和网页开发等差别非常大,本人就是浪费了很多时间来看这些博客.书籍.所以就有了本文,希望能 ...

  6. 《Python 数据分析》笔记——pandas

    Pandas pandas是一个流行的开源Python项目,其名称取panel data(面板数据)与Python data analysis(Python 数据分析)之意. pandas有两个重要的 ...

  7. python数据分析三剑客之: pandas操作

    pandas的操作 pandas的拼接操作 # pandas的拼接操作 级联 pd.concat , pd.append 合并 pd.merge , pd.join 一丶pd.concat()级联 # ...

  8. Python数据分析库之pandas,你该这么学!No.1

    写这个系列背后的故事 咦,面试系列的把基础部分都写完啦,哈哈答,接下来要弄啥嘞~ pandas吧 外国人开发的 翻译成汉语叫 熊猫 厉害厉害,很接地气 一个基于numpy的库 干啥的? 做数据分析用的 ...

  9. 新手学习Python第三方包库pip安装失败总结

    这篇文章纯原创,是之前自己学习使用pyhton时遇到的问题,故在此记录一下. 问题与需求:用python下载第三方库或包的时候出错怎么办? 方法有一下三种,可以解决大部分的问题. 1.在cmd命令控制 ...

随机推荐

  1. scikit-learn 机器学习库

    一 介绍 scikit-learn是Python的一个开源机器学习模块,它建立在NumPy,SciPy和matplotlib模块之上.值得一提的是,scikit-learn最先是由David Cour ...

  2. 【2】循序渐进学 Zabbix:安装配置 Zabbix Server 服务端

    上一篇 [1]循序渐进学 Zabbix :初识与基础依赖环境搭建( LNMP ) 安装 Zabbix Server 上篇我们在 192.168.200.101 上面安装了 Zabbix 所依赖的 LN ...

  3. 温故而知新_C语言_递归

    递归. 是的,差不多就是这种感觉.上面就是类似递归的显示表现. 2017 10 24更新: 递归这个问题放了很久.也没有写.大概是自己还没有好好理解吧. 在这里写下自己理解的全部. 一 何为递归. 字 ...

  4. winform datagridview不显示滚动条

    datagridview 数据行数已经超出表格显示范围了,为什么右侧没有滚动条呢? 这个其实不是DataGridView的问题,实际上滚动条是出现了的,但被其他东西挡住了.如果网格是放在panel上的 ...

  5. SharePoint安装注意点

    在安装SharePoint之前需要注意的地方(整理如下:) 1.首先得先安装IIS服务器和ApplicationServer 2.然后要在运行setup.exe之前先运行prerequisiteins ...

  6. 使用gifplayer操作gif的方法

    使用的工具--gifplayer 基本用法: 1.安装 git clone https://github.com/rubentd/gifplayer.git 2.添加一张gif预览的图片 <im ...

  7. Linux系统centos中sudo命令不能用----提升权限

    gyx is not in the sudoers file.  This incident will be reported. 1.切换到root用户 su ,如果想要切换回去 exit 2.添加s ...

  8. error : Could not load UI satellite dll 'TrackerUI.dll'. Make sure it exists in an LCID subdirectory of 'C:\Program Files (x86)\MSBuild\12.0\bin\'.

    原因  VS2013 + QT环境部署好后, 又安装了VS2015\ 解决方案:  在另一台电脑里重装VS2013, 并将  C:\Program Files (x86)\MSBuild\12.0\B ...

  9. HDU6444(子段和、分情况比较)

    要点 不难想到gcd一下然后枚举每个开头走一圈,并记录一下数值. 最终答案是分情况的:1.能走几圈走几圈然后加上最后剩余的最大子段和:2.也可能是最后一圈后面的拖后腿了,所以最后一圈没走完就停,即长度 ...

  10. P2906 [USACO08OPEN]牛的街区Cow Neighborhoods

    传送门 曼哈顿距离好像不好直接算,我们可以把牛的坐标转化一下以方便计算距离 (x,y) --> (x+y,x-y) 那么距离就可以表示成 $max(\left |x_1-x_2  \right ...