Pandas进阶之DataFrame多级索引

多级索引：在一个轴上有多个(两个以上）的索引，能够以低维度形式来表示高维度的数据。单级索引是Index对象，多级索引是MultiIndex对象。

一、创建多级索引

方法一：隐式创建，即给DataFrame的index或columns参数传递两个或更多的数组。

df1 = pd.DataFrame(np.random.randint(80, 120, size=(2, 4)),

                   index= ['girl', 'boy'],

                   columns=[['English', 'English', 'Chinese', 'Chinese'],

                         ['like', 'dislike', 'like', 'dislike']])

print(df1)    # 创建多级 列 索引

-------------------------------------------------------------------------------------

          English         Chinese

          like  dislike   like    dislike

    girl  85    109       117     110

    boy   85    111       100     107

方法二、显示创建，推荐使用较简单的pd.MultiIndex.from_product方法

df2 = pd.DataFrame(np.random.randint(80, 120, size=(4, 2)),

                   columns= ['girl', 'boy'],

                   index=pd.MultiIndex.from_product([['English','Chinese'],

                                                    ['like','dislike']]))

print(df2)    # 创建多级 行 索引

-------------------------------------------------------------------------------------

                  girl    boy

English   like    92      98

          dislike 118     99

Chinese   like    109     108

          dislike 108     91

二、检索多级索引

类似单级索引检索(loc、iloc)，以df1数据为例

df1.English

-------------------------------------------------------------------------------------

      like  dislike

girl  105   112

boy   118   87

df1.English.dislike

-------------------------------------------------------------------------------------

girl    112

boy      87

Name: dislike, dtype: int64

df1.iloc[:,0:3]

-------------------------------------------------------------------------------------

      English        Chinese

      like  dislike  like

girl  85    113      82

boy   97    83       94

df1.loc['girl', ['English', 'Chinese']]

-------------------------------------------------------------------------------------

English  like       105

         dislike    112

Chinese  like        87

         dislike     92

Name: girl, dtype: int64

多级索引的检索，可以使用更高级的方法，如xs、IndexSlice等，用到较少暂不介绍。

三、更改索引的层级

创建多级索引

df = pd.DataFrame(np.random.randint(80, 120, size=(6, 4)),

              index= pd.MultiIndex.from_product([[1, 2, 3],['girl', 'boy']]),

              columns=pd.MultiIndex.from_product([['English','Chinese'],

                                                  ['Y','N']]))

print(df)

-------------------------------------------------------------------------------------

            English Chinese

            Y   N   Y   N

1   girl    86  99  111 105

    boy     85  110 113 112

2   girl    98  106 108 94

    boy     117 80  97  83

3   girl    95  81  114 95

    boy     106 95  119 81

为多级索引命名

df.columns.names = ['Language', 'Pass']    # 设置列索引名

df.index.names = ['Class', 'Six']    # 设置行索引名

print(df)

-------------------------------------------------------------------------------------

Language        English Chinese

Pass            Y   N   Y   N

Class   Six

1       girl    86  99  111 105

        boy     85  110 113 112

2       girl    98  106 108 94

        boy     117 80  97  83

3       girl    95  81  114 95

        boy     106 95  119 81

更改索引的层级(swaplevel)

df.swaplevel('Six','Class')    # 更改行索引的层级

-------------------------------------------------------------------------------------

Language    English Chinese

Pass        Y   N   Y   N

Six   Class

girl    1   86  99  111 105

boy     1   85  110 113 112

girl    2   98  106 108 94

boy     2   117 80  97  83

girl    3   95  81  114 95

boy     3   106 95  119 81

四、多级索引的值排序(sort_index)

方法一

df.sort_index(level=0, axis=0, ascending=False)    # 对行索引Class的值进行降序排列

-------------------------------------------------------------------------------------

Language    English Chinese

Pass            Y   N   Y   N

Class   Six

    3   girl    95  81  114 95

        boy     106 95  119 81

    2   girl    98  106 108 94

        boy     117 80  97  83

    1   girl    86  99  111 105

        boy     85  110 113 112

方法二：使用sortlevel方法，从0.20.0版本开始，已经被弃用

五、多级索引汇总统计

示例一

df.sum(level=1) 或df.sum(level='Six')    # 对行索引Six进行求和

-------------------------------------------------------------------------------------

Language English Chinese

Pass    Y   N   Y   N

Six

girl    279 286 333 294

boy     308 285 329 276

示例二

df.sum(level=0, axis=1)  或 df.sum(level='Language', axis=1)    # 对列索引Language进行求和

-------------------------------------------------------------------------------------

Language    English Chinese

Class   Six

1       girl  185   216

        boy   195   225

2       girl  204   202

        boy   197   180

3       girl  176   209

        boy   201   200

六、多级索引轴向转换

常见的数据层次化结构：树状和表格
轴向转换的函数
1. stack() : 将行索引变成列索引，可以理解为将表格数据转换为树状数据
2. unstack() : 将列索引变成行索引，可以理解为将树状数据转换为表格数据
3. 两个函数互为逆函数，作用相反，用法相同。单级索引时，结果会生成一个Series；多级索引时默认转换最内层索引，也可以自定义转换的索引层级

示例

  print(df)    # 数据源

  -------------------------------------------------------------------------------------

  Language        English Chinese

  Pass            Y   N   Y   N

  Class   Six

  1       girl    86  99  111 105

          boy     85  110 113 112

  2       girl    98  106 108 94

          boy     117 80  97  83

  3       girl    95  81  114 95

          boy     106 95  119 81

  df.stack()    # 默认将最内层的行索引(Pass)转换为了列索引

  -------------------------------------------------------------------------------------

  Language            Chinese English

  Class   Six   Pass

  1       girl  N       105   99

                Y       111   86

          boy   N       112   110

                Y       113   85

  2       girl  N       94    106

                Y       108   98

          boy   N       83    80

                Y       97    117

  3       girl  N       95    81

                Y       114   95

          boy   N       81    95

                Y       119   106

  df.unstack(level=0)    # 指定将列索引(Class)转化成行索引

  -------------------------------------------------------------------------------------

  Language    English             Chinese

  Pass    Y           N           Y           N

  Class   1   2   3   1   2   3   1   2   3   1   2   3

  Six

  boy     85  117 106 110 80  95  113 97  119 112 83  81

  girl    86  98  95  99  106 81  111 108 114 105 94  95

七、多级索引转换单级索引

步骤：先将多级的行索引转换为列索引，再重置列索引

示例

dt = df.stack()   # 将内层行索引()转换为列索引

dt = dt.reset_index()   # 重置列索引

print(dt)

-------------------------------------------------------------------------------------

Language  Class Six   Pass  Chinese English

0           1   girl    N   105     99

1           1   girl    Y   111     86

2           1   boy     N   112     110

3           1   boy     Y   113     85

4           2   girl    N   94      106

5           2   girl    Y   108     98

6           2   boy     N   83      80

7           2   boy     Y   97      117

8           3   girl    N   95      81

9           3   girl    Y   114     95

10          3   boy     N   81      95

11          3   boy     Y   119     106

Pandas进阶之DataFrame多级索引的更多相关文章

数据分析入门——pandas之DataFrame多层/多级索引与聚合操作
一.行多层索引 1.隐式创建在构造函数中给index.colunms等多个数组实现(datafarme与series都可以) df的多级索引创建方法类似: 2.显式创建pd.MultiIndex 其 ...
Pandas系列（十八）- 多级索引
多级索引多级索引(也称层次化索引)是pandas的重要功能,可以在Series.DataFrame对象上拥有2个以及2个以上的索引.实质上,单级索引对应Index对象,多级索引对应MultiInde ...
程序员用于机器学习编程的Python 数据处理库 pandas 进阶教程
数据访问在入门教程中,我们已经使用过访问数据的方法.这里我们再集中看一下. 注:这里的数据访问方法既适用于Series,也适用于DataFrame. **基础方法:[]和. 这是两种最直观的方法,任 ...
pandas | 使用pandas进行数据处理——DataFrame篇
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是pandas数据处理专题的第二篇文章,我们一起来聊聊pandas当中最重要的数据结构--DataFrame. 上一篇文章当中我们介绍了 ...
pandas 学习（2）： pandas 数据结构之DataFrame
DataFrame 类型类似于数据库表结构的数据结构,其含有行索引和列索引,可以将DataFrame 想成是由相同索引的Series组成的Dict类型.在其底层是通过二维以及一维的数据块实现. 1. ...
python数据分析之pandas库的DataFrame应用二
本节介绍Series和DataFrame中的数据的基本手段重新索引 pandas对象的一个重要方法就是reindex,作用是创建一个适应新索引的新对象 ''' Created on 2016-8-1 ...
pandas数据结构之Dataframe
Dataframe DataFrame是一个[表格型]的数据结构,可以看做是[由Series组成的字典](多个series共用同一个索引).DataFrame由按一定顺序排列的多列数据组成.设计初衷是 ...
[转]python中pandas库中DataFrame对行和列的操作使用方法
转自:http://blog.csdn.net/u011089523/article/details/60341016 用pandas中的DataFrame时选取行或列: import numpy a ...
Pandas之Series+DataFrame
Series是带有标签的一维数组,可以保存任何数据类型(整数,字符串,浮点数,python对象) index查看series索引,values查看series值 series相比于ndarray,是一 ...

随机推荐

Java开发环境之Solr
查看更多Java开发环境配置,请点击<Java开发环境配置大全> 玖章:Solr安装教程 1)官网下载Solr安装包 http://lucene.apache.org/solr/downl ...
django中使用AJAX时如何获取表单参数（按钮携带参数）
前提是函数和相应的视图路由都已经配置好了,然后就是表单了: <form id="SmsForm" method="post" class="a& ...
Python_类的私有属性、私有方法
1.私有属性:只需要在初始化时,在属性名前加__ class Cup: #构造函数,初始化属性值 def __init__(self,capacity,color): #私有属性,只需要在属性名字前加 ...
PostgreSQL日志分析工具
PostgreSQL日志分析工具 postgresqllinux PostgreSQL日志审计可以配合 pgbench.jmeter...测试工具制定测试计划测试性能,由于日志审计比较影响性能,在不需 ...
Lovers(HDU6562+线段树+2018年吉林站)
题目链接传送门题意初始时有$n$个空串,然后进行$q$次操作,操作分为以下两种: wrap l r x:把$l,r$中的每个字符串的首尾都加入$x$,如\(s_i=121,x=3 ...
centos 7 修改密码
linux管理员忘记root密码,需要进行找回操作. 注意事项:本文基于centos7环境进行操作,由于centos的版本是有差异的,继续之前请确定好版本. 操作步骤一.重启系统,在开机过程中,快速 ...
hive中执行hql或建表语句时，抛出Display all 459 possibilities? (y or n)错误的解决方法
我昨天在hive上建表,一直报Display all 459 possibilities? (y or n) ,之前我以为是建表语句有问题,一直在改语句,后来在网上搜这个错误,原来语句里混杂了Tab缩 ...
Vue --- 基础简介
目录 Vue简介 1.什么是Vue 2.为什么要学习Vue 3.special -- 特点 4.如何使用vue Vue使用 1.如何使用vue 2.插值表达式 3.文本指令 4.事件指令 5.属性指令 ...
Django REST framework视图
混合类阶段(封装2次) 路由: url(r'school/$', views.SchoolView.as_view()), url(r'school/(?P<pk>\d+)/$', vie ...
LeetCode 971. Flip Binary Tree To Match Preorder Traversal
原题链接在这里:https://leetcode.com/problems/flip-binary-tree-to-match-preorder-traversal/ 题目: Given a bina ...