pandas--层次化索引

层次化索引是pandas的一项重要功能，它使你能在一个轴上拥有多个（两个以上）索引级别。

创建一个Series，并用一个由列表或数组组成的列表作为索引。

 data=Series(np.random.randn(10),

 index=[['a','a','a','b','b','b','c','c','d','d'],

 [1,2,3,1,2,3,1,2,2,3]])

 data

 Out[6]:

 a  1   -2.842857

    2    0.376199

    3   -0.512978

 b  1    0.225243

    2   -1.242407

    3   -0.663188

 c  1   -0.149269

    2   -1.079174

 d  2   -0.952380

    3   -1.113689

 dtype: float64

这就是带MultiIndex索引的Series的格式化输出形式。索引之间的“间隔”表示“直接使用上面的标签”。

 data.index

 Out[7]:

 MultiIndex(levels=[['a', 'b', 'c', 'd'], [1, 2, 3]],

            labels=[[0, 0, 0, 1, 1, 1, 2, 2, 3, 3], [0, 1, 2, 0, 1, 2, 0, 1, 1, 2]])

对于一个层次化索引的对象，选取数据子集的操作很简单：

 data['b']

 Out[8]:

 1    0.225243

 2   -1.242407

 3   -0.663188

 dtype: float64

 data['b':'c']

 Out[10]:

 b  1    0.225243

    2   -1.242407

    3   -0.663188

 c  1   -0.149269

    2   -1.079174

 dtype: float64

 data.ix[['b','d']]

 __main__:1: DeprecationWarning:

 .ix is deprecated. Please use

 .loc for label based indexing or

 .iloc for positional indexing

 See the documentation here:

 http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated

 Out[11]:

 b  1    0.225243

    2   -1.242407

    3   -0.663188

 d  2   -0.952380

    3   -1.113689

 dtype: float64

甚至可以在“内层”中进行选取：

 data[:,2]

 Out[12]:

 a    0.376199

 b   -1.242407

 c   -1.079174

 d   -0.952380

 dtype: float64

层次化索引在数据重塑和基于分组的操作中扮演重要角色。

可以通过unstack方法被重新安排到一个DataFrame中：

 data.unstack()

 Out[13]:

           1         2         3

 a -2.842857  0.376199 -0.512978

 b  0.225243 -1.242407 -0.663188

 c -0.149269 -1.079174       NaN

 d       NaN -0.952380 -1.113689

 #unstack的逆运算是stack

 data.unstack().stack()

 Out[14]:

 a  1   -2.842857

    2    0.376199

    3   -0.512978

 b  1    0.225243

    2   -1.242407

    3   -0.663188

 c  1   -0.149269

    2   -1.079174

 d  2   -0.952380

    3   -1.113689

 dtype: float64

对于DataFrame，每条轴都可以有分层索引：

 frame=DataFrame(np.arange(12).reshape((4,3)),

 index=[['a','a','b','b'],[1,2,1,2]],

 columns=[['Ohio','Ohio','Colorado'],

 ['Green','Red','Green']])

 frame

 Out[16]:

      Ohio     Colorado

     Green Red    Green

 a 1     0   1        2

   2     3   4        5

 b 1     6   7        8

   2     9  10       11

各层都可以有名字。如果指定了名称，它们会显示在控制台中（不要将索引名称和轴标签混为一谈！）

 frame.index.names=['key1','key2']

 frame.columns.names=['state','color']

 frame

 Out[22]:

 state      Ohio     Colorado

 color     Green Red    Green

 key1 key2

 a    1        0   1        2

      2        3   4        5

 b    1        6   7        8

      2        9  10       11

由于有了分部的列索引，可以轻松选取列分组：

 frame['Ohio']

 Out[23]:

 color      Green  Red

 key1 key2

 a    1         0    1

      2         3    4

 b    1         6    7

      2         9   10

重排分级排序

有时需要重新调整某条轴上各级别的顺序，或根据指定级别上的值对数据进行排序。swaplevel接受两个级别编号或名称，并返回一个互换了级别的新对象（但数据不会发生变化）：

 frame.swaplevel('key1','key2')

 Out[24]:

 state      Ohio     Colorado

 color     Green Red    Green

 key2 key1

 1    a        0   1        2

 2    a        3   4        5

 1    b        6   7        8

 2    b        9  10       11

sortlevel则根据单个级别中的值对数据进行排序。交换级别时，常用得到sortlevel，这样最终结果也是有序的了：

 frame.swaplevel(0,1)

 Out[27]:

 state      Ohio     Colorado

 color     Green Red    Green

 key2 key1

 1    a        0   1        2

 2    a        3   4        5

 1    b        6   7        8

 2    b        9  10       11

 #交换级别0,1（也就是key1,key2)

 #然后对axis=0进行排序

 frame.swaplevel(0,1).sortlevel(0)

 __main__:1: FutureWarning: sortlevel is deprecated, use sort_index(level= ...)

 Out[28]:

 state      Ohio     Colorado

 color     Green Red    Green

 key2 key1

 1    a        0   1        2

      b        6   7        8

 2    a        3   4        5

      b        9  10       11

根据级别汇总统计

有时需要重新调整某条轴上各级别的顺序，或根据指定级别上的值对数据进行排序。swaplevel接受两个级别编号或名称，并返回一个互换了级别的新对象（但数据不会发生变化）：

 frame.sum(level='key2')

 Out[29]:

 state  Ohio     Colorado

 color Green Red    Green

 key2

 1         6   8       10

 2        12  14       16

 frame.sum(level='color',axis=1)

 Out[30]:

 color      Green  Red

 key1 key2

 a    1         2    1

      2         8    4

 b    1        14    7

      2        20   10

使用DataFrame的列

将DataFrame的一个或多个列当做行索引来用，或将行索引变成Dataframe 的列。

 frame=DataFrame({'a':range(7),'b':range(7,0,-1),

 'c':['one','one','one','two','two','two','two'],

 'd':[0,1,2,0,1,2,3]})

 frame

 Out[32]:

    a  b    c  d

 0  0  7  one  0

 1  1  6  one  1

 2  2  5  one  2

 3  3  4  two  0

 4  4  3  two  1

 5  5  2  two  2

 6  6  1  two  3

DataFrame的set_index函数会将其一个或多个列转换为行索引，并创建一个新的DataFrame：

 frame2=frame.set_index(['c','d'])

 frame2

 Out[34]:

        a  b

 c   d

 one 0  0  7

     1  1  6

     2  2  5

 two 0  3  4

     1  4  3

     2  5  2

     3  6  1

默认情况下，那些列会从DataFrame中移除，但也可以将其保留下来：

 frame.set_index(['c','d'],drop=False)

 Out[35]:

        a  b    c  d

 c   d

 one 0  0  7  one  0

     1  1  6  one  1

     2  2  5  one  2

 two 0  3  4  two  0

     1  4  3  two  1

     2  5  2  two  2

     3  6  1  two  3

reset_index的功能和set_index刚好相反，层次化索引的级别会被转移到列里面：

 frame2.reset_index()

 Out[36]:

      c  d  a  b

 0  one  0  0  7

 1  one  1  1  6

 2  one  2  2  5

 3  two  0  3  4

 4  two  1  4  3

 5  two  2  5  2

 6  two  3  6  1

pandas--层次化索引的更多相关文章

(三）pandas 层次化索引
pandas层次化索引 1. 创建多层行索引 1) 隐式构造最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组 Series也可以创建多层索引 import numpy ...
pandas中层次化索引与切片
Pandas层次化索引 1. 创建多层索引隐式索引: 常见的方式是给dataframe构造函数的index参数传递两个或是多个数组 Series也可以创建多层索引 Series多层索引 B =Ser ...
Pandas基本功能之层次化索引及层次化汇总
层次化索引层次化也就是在一个轴上拥有多个索引级别 Series的层次化索引 data=Series(np.random.randn(10),index=[ ['a','a','a','b','b', ...
pandas：由列层次化索引延伸的一些思考
1. 删除列层次化索引用pandas利用df.groupby.agg() 做聚合运算时遇到一个问题:产生了列方向上的两级索引,且需要删除一级索引.具体代码如下: # 每个uesr每天消费金额统计:和 ...
pandas（五）处理缺失数据和层次化索引
pandas用浮点值Nan表示浮点和非浮点数组中的缺失数据.它只是一个便于被检测的标记而已. >>> string_data = Series(['aardvark','artich ...
利用Python进行数据分析(11) pandas基础: 层次化索引
层次化索引层次化索引指你能在一个数组上拥有多个索引,例如: 有点像Excel里的合并单元格对么? 根据索引选择数据子集以外层索引的方式选择数据子集: 以内层索引的方式选择数据: 多重索引S ...
利用Python进行数据分析_Pandas_层次化索引
申明:本系列文章是自己在学习<利用Python进行数据分析>这本书的过程中,为了方便后期自己巩固知识而整理. 层次化索引主要解决低纬度形式处理高纬度数据的问题 import pandas ...
pandas重置索引的几种方法探究
pandas重置索引的几种方法探究 reset_index() reindex() set_index() 函数名字看起来非常有趣吧! 不仅如此. 需要探究. http://nbviewer.jupy ...
关于groupby与层次化索引的联系和层次化标签的使用
groupby出来对象并不是dataFrame,所以直接print是看不到矩阵或者高维矩阵的,所以需要用能够产生标量值的方法去处理groupby对象,这样可以利用矩阵形式处理高维数据: 这样group ...
pandas 数据索引与选取
我们对 DataFrame 进行选择,大抵从这三个层次考虑:行列.区域.单元格.其对应使用的方法如下:一. 行,列 --> df[]二. 区域 --> df.loc[], df.ilo ...

随机推荐

装完某些软件之后IE主页被https://www.hao123.com/?tn=93453552_hao_pg劫持
今天重装电脑,装完某些软件之后发现IE主页被https://www.hao123.com/?tn=93453552_hao_pg劫持,然后百度各种解决方法都没用,甚至是修改注册表依然没啥用最后忽然看 ...
js中构造函数的原型添加成员的两种方式
首先,js中给原型对象添加属性和方法. 方式一:对象的动态特效给原型对象添加成员语法:构造函数.prototype.方法名=function (){ } 方式二:替换原型对象(不是覆盖,而是替换, ...
ionic3.0 中带顶部导航的下拉刷新列表的实现
1.最终实现效果 2.html代码布局: 3.css样式控制(注:下面这两个css类名需在浏览器解析后才可看到)
Codeforces 1105E 最大独立集状态DP 中途相遇法
题意:你有一个字符串, 有两种操作,一种是改变字符串,一种是某个用户询问这个字符串,如果一个用户每次查询字符串的时候都是他的用户名,他就会高兴.问最多有多少个用户会高兴? 题意:容易发现,在两个1操作 ...
rabbitmq AmqpClient 使用Topic 交换机同一个channel 同时多个队列，多个交换机，C++代码示例
// 消息发送 bool PublishExchangeTopicMulti(const std::string &strUri) { AmqpClient::Channel::ptr_t c ...
rabbitmq AmqpClient 使用Fanout 交换机投递与接收消息，C++代码示例
fanout交换器重点内容非常简单.它只会将接收到的所有消息广播发送到它所知道的所有队列. 投递消息到交换机: #include "SimpleAmqpClient/SimpleAmqpCl ...
idea激活教程，最新！！！
1.下载破解补丁(关键). 破解补丁:JetbrainsIdesCrack-4.2-release.jar百度云地址:https://pan.baidu.com/s/18ovphd7sm7oYXQb4 ...
CF817E Choosing The Commander
\(\mathtt{CF817E}\) \(\mathcal{Description}\) 有 \(q\) 个操作\((1 \leq q \leq 10^{5})\): 1.加入一个数 \(p_i(1 ...
python 对列表中任意两个数进行操作 (python operate any two elements in list)
python中, 实现列表中的整型元素两两相乘或列表中的数组元素两两相与 1. 假设列表中的元素是整型, 可调用以下函数: def list_any_two_mul(mylist): num ...
【LeetCode 1】两数之和
描述 [题解] 用个map的话就是O(N)级别的了. [代码] class Solution { public: unordered_map<int,int> mymap; vector& ...

pandas--层次化索引

pandas--层次化索引的更多相关文章

随机推荐

热门专题