Pandas快速入门笔记

我正以Python作为突破口，入门机器学习相关知识。出于机器学习实践过程中的需要，我快速了解了一下提供了类似关系型或标签型数据结构的Pandas的使用方法。下面记录相关学习笔记。

数据结构

Pandas最主要的知识点是两个数据结构，分别是Series和DataFrame。你可以分别把它们简单地理解为带标签的一维数组和二维数组。

以下实践假设已经运行了必要的import语句，如：

import pandas as pd

Series

先在命令行里面看一下Series的样子：

可以看到Series是一个列表，列表的每一项都有一个称之为index的索引（如：a、b、c...），和一个与之对应的值（如：0、1、2...）。

创建`Series`

看过了Series的内容，很容易想到创建Series需要提供两项内容：数据与索引。基于这两项内容可以产生几种变形：

使用Python的列表创建Series
使用列表作为数据项，另外通过index关键词指定另一个索引列表。

pd.Series([1,2,3], index=['a', 'b', 'c'])

使用Python的二元组创建Series
作为上面一种形式变形，可以把索引和数据一一组合在一起成为元组，然后以元组列表作为创建Series的参数。

pd.Series({'a': 0, 'b': 1, 'c': 2})

使用单独标量创建元素值一样的Series

# a、b、c的值都是1

pd.Series(1, index=['a', 'b', 'c'])

使用NumPy数组创建Series
为了让NumPy数据可以快速转换成Pandas的数据，Pandas提供了使用ndarray创建Series的方式。

import numpy as np

pd.Series(np.array([1,2,3]), index=['a','b','c'])

访问`Series`

下面假设有一个Series为s=pd.Series([1,2,3], index=['a', 'b', 'c'])。访问这个s可以选择下面方式：

Series可以像NumPy的数组一样访问。特殊的是：Series使用元素索引访问其元素的值；而使用切片索引访问其片段（包含索引和值的Series）。

print(s[0]) # 结果为数值：1

print(s[0:1]) # 结果为Series：a  1

Series还可以像Python的字典那样访问其元素或检查元素是否存在。

print(s['a']) # 结果为数值：1

print(s.a) # 结果为数值：1

print('a' in s) # 结果为True

另外还可以用搜索条件过滤Series获取切片。

print(s[s > 2]) # 结果为Series： c  3

`Series`的相关操作

大部分NumPy的通用函数可以应用在Series上，因此不再赘述。

需要注意的点在于，当参与操作的Series会根据索引自动对齐元素然后进行操作，如存在某个索引是不在另一个Series中，则使用NaN作为结果。

s1 = pd.Series([1,2,3], index=['a','b','c'])

s2 = pd.Series([3,2,1], index=['b','c','d'])

s1 + s2

结果包含四个元素，内容如下：

a    NaN

b    5.0

c    5.0

d    NaN

Series的name属性

每个Series有一个name属性，它将在在二维的数据结构中作为Series的索引。

DataFrame

我们依旧先来看一下DataFrame的样子。

DataFrame实际上是一个二维数组，可以由多个Series组成。每个Series作为一列或者一行。

创建`DataFrame`

DataFrame的创建方法太多了，因此这里只举几种常用的例子。希望能有更深入的了解，还是查阅官方文档比较合适。

创建DataFrame大体可以分为两种情况，一种是按行提供数据，另一种是按列提供数据。

按行提供数据

这种方式把DataFrame当成一个行列表，我们为列表提供每一行的内容。行数据可以是Python的列表、NumPy的数组、Pandas的Series等。如下：

# 列表形式

l1 = [11, 12, 13]

l2 = [21, 22, 23]

l3 = [31, 32, 33, 34]

df = pd.DataFrame([l1,l2,l3], dtype='int32')

# ndarray形式

a1 = np.array([11,12,13])

a2 = np.array([21,22,23])

a3 = np.array([31,32,33,34])

df = pd.DataFrame([a1,a2,a3], dtype='int32')

# Series形式

s1 = pd.Series([11,12,13])

s2 = pd.Series([21,22,23])

s3 = pd.Series([31,32,33,34])

df = pd.DataFrame([s1,s2,s3], dtype='int32')

以上三种形式创建了同样的DataFrame，结果如下：

    0   1   2     3

0  11  12  13   NaN

1  21  22  23   NaN

2  31  32  33  34.0

注意到，我们并没有提供行索引和列索引，这种情况DataFrame的构造函数会自动为我们添加索引。特殊的，如果我们使用Series按行创建时，如果Series设置了name属性，则name属性将作为DataFrame的索引呈现，其中若有为指定name属性的将按顺序给与默认命名（如：‘Unnamed 0’）。例如：

s1 = pd.Series([11,12,13])

s2 = pd.Series([21,22,23])

s3 = pd.Series([31,32,33,34])

s1.name = 's1'

df = pd.DataFrame([s1,s2,s3], dtype='int32')

这时的df的结果为：

            0   1   2     3

s1         11  12  13   NaN

Unnamed 0  21  22  23   NaN

Unnamed 1  31  32  33  34.0

按列提供数据

这种方式把DataFrame当成一个列元组，我们为元组提供每一项元素，这个元素就是单独的一列。列可以是Python的列表、NumPy的数组、Pandas的Series等。

按列提供数据需要注意的指明每列的索引，在DataFrame中称之为columns。如下：

# 列表形式

l1 = [11, 12, 13]

l2 = [21, 22, 23]

df = pd.DataFrame({'c1': l1, 'c2': l2})

# ndarray形式

a1 = np.array([11, 12, 13])

a2 = np.array([21, 22, 23])

df = pd.DataFrame({'c1': a1, 'c2': a2})

上述二者的结果为：

需要注意的是，这种形式提供的每一列必须拥有相同的长度，否则将报异常。

s1 = pd.Series([11,12,13])

s2 = pd.Series([21,22,23])

s3 = pd.Series([31,32,33,34])

结果为：

     c1    c2  c3

0  11.0  21.0  31

1  12.0  22.0  32

2  13.0  23.0  33

3   NaN   NaN  34

Series形式提供的数据将会自动对齐，每个索引为一行。若某个Series中不存在某个索引，则这一列对应位置使用NaN填充。

访问`DataFrame`

下方表格展示了几种索引或选择DataFrame的方法：

以下是上表的示例：

修改数据的时候也可以应用上述查询方式直接进行赋值，但是需要注意的是所赋的内容的类型需要与表格右方的类型对齐。针对Series内容，如果赋值时用的是列表或者ndarray，其长度必须于原来内容的长度一致。例如：

查询与修改元素可以用二级索引，如df.loc['r2'][0] = 2。

删除行或者列可以使用DataFrame.drop函数，它会返回删除后的结果，并不会修改原来的数据。对删除列而言，使用类似del df[0]的语句可以直接删除源数据。而删除元素对DataFrame是无意义的，直接用赋值形式就可以替代。

插入列可以直接用DataFrame.insert函数，与drop不同，它会在原来的数据中插入内容。（另外，目前我尚未发现有直接插入行的操作。有了解的读者可在下方留下言。）

有关数据对齐

当Series或者DataFrame进行操作的时候，如果索引不一致将会进行对齐，然后才操作。下面描述一下这几种情况。

两个Series参与操作，会根据索引自动对齐元素然后进行操作，如存在某个索引是不在另一个Series中，则使用NaN作为结果。
两个DataFrame参与操作，自动对齐行和列，任何行索引或列索引在另一个操作对象中找不到，结果对应位置的元素用NaN补充。

DataFrame与Series参与操作，默认进行行级广播。即把Series作为一列，Series的index对齐到DataFrame的columns进行运算。特殊地，索引都是时间的DataFrame与Series参与操作会发生列级广播。列级广播的意思就是把Series当成一个横向的DataFrame，它的每个索引和对应的值都当成一列。因此操作的时候原来的Series的时间索引变成了结果的列索引。

另外这种情况直接用加号“+”的方式已经不推荐了，而是使用add函数，同时可以通过指定axis参数指明Series广播的维度。如下：

数据可视化

Pandas数据结构（Series和DataFrame）封装了matplotlib.pyplot，直接调用它们的plot等函数可以绘制图像。

这些函数简单封装了plt.plot()。你要做的仅仅是导入matplotlib.pyplot，然后调用plt.show()展示图像。

下面看例子：

你还可以绘制其他类型的图像，下图展示了其他函数：

本文来自同步博客