8 层次化索引

层次化索引使你能在一个轴上拥有多个（两个以上）索引级别。抽象的说，它使你能以低维度形式处理高维度数据。

 1 >>> data = pd.Series(np.random.randn(10), index=[['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'd', 'd'], [1, 2, 3, 1, 2, 3, 1, 2, 2, 3]])

 2 >>> data

 3 a  1    3.230188

 4    2    0.596511

 5    3    0.956307

 6 b  1    1.132221

 7    2    0.746174

 8    3    0.470007

 9 c  1    0.880883

10    2    0.757047

11 d  2   -0.028331

12    3    0.382625

13 dtype: float64

14 >>> data.index #带MultiIndex索引的Series的格式化输出形式，索引之间的“间隔”表示“直接使用上面的标签”

15 MultiIndex([('a', 1),

16             ('a', 2),

17             ('a', 3),

18             ('b', 1),

19             ('b', 2),

20             ('b', 3),

21             ('c', 1),

22             ('c', 2),

23             ('d', 2),

24             ('d', 3)],

25            )

26 >>> data['b']  #选取数据子集

27 1    1.132221

28 2    0.746174

29 3    0.470007

30 dtype: float64

31 >>> data['b': 'c']

32 b  1    1.132221

33    2    0.746174

34    3    0.470007

35 c  1    0.880883

36    2    0.757047

37 dtype: float64

38 >>> data.loc[['b', 'd']]

39 b  1    1.132221

40    2    0.746174

41    3    0.470007

42 d  2   -0.028331

43    3    0.382625

44 dtype: float64

45 >>> data[:, 2]  #在“内层”中进行选取

46 a    0.596511

47 b    0.746174

48 c    0.757047

49 d   -0.028331

50 dtype: float64

层次索引在数据重塑和基于和基于分组的操作（如透视表生成）中有重要作用。

如可以通过unstack方法重新安排多层数据到一个DataFrame中。

官方说明：pandas.DataFrame.unstack — pandas 1.3.4 documentation (pydata.org)

 1 >>> data

 2 a  1    3.230188

 3    2    0.596511

 4    3    0.956307

 5 b  1    1.132221

 6    2    0.746174

 7    3    0.470007

 8 c  1    0.880883

 9    2    0.757047

10 d  2   -0.028331

11    3    0.382625

12 dtype: float64

13 >>> data.unstack()

14           1         2         3

15 a  3.230188  0.596511  0.956307

16 b  1.132221  0.746174  0.470007

17 c  0.880883  0.757047       NaN

18 d       NaN -0.028331  0.382625

19 >>> data.unstack().stack()  #stack使unstack的逆运算

20 a  1    3.230188

21    2    0.596511

22    3    0.956307

23 b  1    1.132221

24    2    0.746174

25    3    0.470007

26 c  1    0.880883

27    2    0.757047

28 d  2   -0.028331

29    3    0.382625

30 dtype: float64

对于一个DataFrame，每条轴都可以分成索引，每层都可以由名字（可能是字符串，也可以是别的python对象）。如果指定了名字，它们就会显示在控制台输出中。

 1 >>> frame = pd.DataFrame(np.arange(12).reshape((4, 3)), index=[['a', 'a', 'b', 'b'], [1, 2, 1, -2]], columns=[['Oh', 'Oh', 'Co'], ['Gr', 'Re', 'Gr']])

 3 >>> frame

 4      Oh      Co

 5      Gr  Re  Gr

 6 a  1  0   1   2

 7    2  3   4   5

 8 b  1  6   7   8

 9   -2  9  10  11

10 >>> frame.index.names = ['key1', 'key2']

11 >>> frame.columns.names = ['state', 'color']

12 >>> frame

13 state     Oh      Co

14 color     Gr  Re  Gr

15 key1 key2

16 a     1    0   1   2

17       2    3   4   5

18 b     1    6   7   8

19      -2    9  10  11

20 >>> frame['Oh']

21 color      Gr  Re

22 key1 key2

23 a     1     0   1

24       2     3   4

25 b     1     6   7

26      -2     9  10

8.1 重排分级排序

有时需要调整某条轴上各级别的顺序，或根据指定级别上的值对数据进行排序。

swaplevel接受两个级别编号或名称，并返回一个互换了级别的新对象（当数据不会发生变化）。

官方文档：pandas.DataFrame.swaplevel — pandas 1.3.4 documentation (pydata.org)

 1 >>> frame

 2 state     Oh      Co

 3 color     Gr  Re  Gr

 4 key1 key2

 5 a     1    0   1   2

 6       2    3   4   5

 7 b     1    6   7   8

 8      -2    9  10  11

 9 >>> frame.swaplevel('key1', 'key2')

10 state     Oh      Co

11 color     Gr  Re  Gr

12 key2 key1

13  1   a     0   1   2

14  2   a     3   4   5

15  1   b     6   7   8

16 -2   b     9  10  11

8.2 根据级别汇总统计

许多对DataFrame和Series的描述和汇总统计都有一个level选项，用于指定在某条轴上求和的级别。

 1 >>> frame

 2 state     Oh      Co

 3 color     Gr  Re  Gr

 4 key1 key2

 5 a     1    0   1   2

 6       2    3   4   5

 7 b     1    6   7   8

 8      -2    9  10  11

 9 >>> frame.sum(level='key2')

10 state Oh      Co

11 color Gr  Re  Gr

12 key2

13  1     6   8  10

14  2     3   4   5

15 -2     9  10  11

16 >>> frame.sum(level='color', axis=1)

17 color      Gr  Re

18 key1 key2

19 a     1     2   1

20       2     8   4

21 b     1    14   7

22      -2    20  10

23 >>>

8.3 使用DataFrame的列

经常将DataFrame的一个或多个列当作行索引来使用，或者希望将行索引变成DataFrame的列。

DataFrame的set_index函数会将其一个或多个列转换为行索引，并创建一个新的DataFrame。

 1 >>> frame = pd.DataFrame({'a': range(7), 'b': range(7, 0, -1), 'c': ['one', 'one', 'one', 'two', 'two', 'two', 'two'], 'd': [0, 1, 2, 0, 1, 2, 3]})

 2 >>> frame

 3    a  b    c  d

 4 0  0  7  one  0

 5 1  1  6  one  1

 6 2  2  5  one  2

 7 3  3  4  two  0

 8 4  4  3  two  1

 9 5  5  2  two  2

10 6  6  1  two  3

11 >>> frame2 = frame.set_index(['c', 'd'])

12 >>> frame2

13        a  b

14 c   d

15 one 0  0  7

16     1  1  6

17     2  2  5

18 two 0  3  4

19     1  4  3

20     2  5  2

21     3  6  1

22 >>> frame.set_index(['c', 'd'], drop=False)  #可选择保留那些列

23        a  b    c  d

24 c   d

25 one 0  0  7  one  0

26     1  1  6  one  1

27     2  2  5  one  2

28 two 0  3  4  two  0

29     1  4  3  two  1

30     2  5  2  two  2

31     3  6  1  two  3

reset_index的功能和set_index刚好相反、层次化索引的级别会被转移到列里面：

 1 >>> frame2

 2        a  b

 3 c   d

 4 one 0  0  7

 5     1  1  6

 6     2  2  5

 7 two 0  3  4

 8     1  4  3

 9     2  5  2

10     3  6  1

11 >>> frame2.reset_index()

12      c  d  a  b

13 0  one  0  0  7

14 1  one  1  1  6

15 2  one  2  2  5

16 3  two  0  3  4

17 4  two  1  4  3

18 5  two  2  5  2

19 6  two  3  6  1

pandas基础--层次化索引的更多相关文章

利用Python进行数据分析(11) pandas基础: 层次化索引
层次化索引层次化索引指你能在一个数组上拥有多个索引,例如: 有点像Excel里的合并单元格对么? 根据索引选择数据子集以外层索引的方式选择数据子集: 以内层索引的方式选择数据: 多重索引S ...
pandas中层次化索引与切片
Pandas层次化索引 1. 创建多层索引隐式索引: 常见的方式是给dataframe构造函数的index参数传递两个或是多个数组 Series也可以创建多层索引 Series多层索引 B =Ser ...
pandas基础用法——索引
# -*- coding: utf-8 -*- # Time : 2016/11/28 15:14 # Author : XiaoDeng # version : python3.5 # Softwa ...
Pandas基本功能之层次化索引及层次化汇总
层次化索引层次化也就是在一个轴上拥有多个索引级别 Series的层次化索引 data=Series(np.random.randn(10),index=[ ['a','a','a','b','b', ...
pandas：由列层次化索引延伸的一些思考
1. 删除列层次化索引用pandas利用df.groupby.agg() 做聚合运算时遇到一个问题:产生了列方向上的两级索引,且需要删除一级索引.具体代码如下: # 每个uesr每天消费金额统计:和 ...
pandas（五）处理缺失数据和层次化索引
pandas用浮点值Nan表示浮点和非浮点数组中的缺失数据.它只是一个便于被检测的标记而已. >>> string_data = Series(['aardvark','artich ...
(三）pandas 层次化索引
pandas层次化索引 1. 创建多层行索引 1) 隐式构造最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组 Series也可以创建多层索引 import numpy ...
Python 数据分析（一）本实验将学习 pandas 基础，数据加载、存储与文件格式，数据规整化，绘图和可视化的知识
第1节 pandas 回顾第2节读写文本格式的数据第3节使用 HTML 和 Web API 第4节使用数据库第5节合并数据集第6节重塑和轴向旋转第7节数据转换第8节字符串操作 ...
利用Python进行数据分析(12) pandas基础: 数据合并
pandas 提供了三种主要方法可以对数据进行合并: pandas.merge()方法:数据库风格的合并: pandas.concat()方法:轴向连接,即沿着一条轴将多个对象堆叠到一起: 实例方法c ...
利用Python进行数据分析(9) pandas基础: 汇总统计和计算
pandas 对象拥有一些常用的数学和统计方法. 例如,sum() 方法,进行列小计: sum() 方法传入 axis=1 指定为横向汇总,即行小计: idxmax() 获取最大值对应的索 ...

随机推荐

D365从云端UAT环境Export DB到本地开发环境
1, 导出数据参考微软的如下链接去操作,很详尽,最终得到一个".bacpac"备份文件 Export a copy of the standard user acceptance ...
通过ORPO技术微调 llama3大模型(Fine-tune Llama 3 with ORPO)
1f45bd1e8577af66a05f5e3fadb0b29 通过ORPO对llama进行微调前言 ORPO是一种新颖的微调技术,它将传统的监督微调和偏好对齐阶段整合到一个过程中.这减少了训练所需 ...
力扣172(java)-阶乘后的零（中等）
题目: 给定一个整数 n ,返回 n! 结果中尾随零的数量. 提示 n! = n * (n - 1) * (n - 2) * ... * 3 * 2 * 1 示例 1: 输入:n = 3输出:0解释: ...
了解3D世界的黑魔法-纯Java构造一个简单的3D渲染引擎
简介: 对于非渲染引擎相关工作的开发者来说,可能认为即使构建最简单的3D程序也非常困难,但事实上并非如此,本篇文章将通过简单的200多行的纯 Java代码,去实践正交投影.简单三角形光栅化.z缓冲(深 ...
如何用一个插件解决 Serverless 灰度发布难题？
简介: 我们可以发现相比使用控制台进行灰度发布,使用 FC-Canary 插件免去了用户手动创建版本.发布别名.关联触发器和管理自定义域名的麻烦,使用起来非常方便. 作者:长淇导读本文适合: 想了 ...
流批一体生产应用！Bigo 实时计算平台建设实践
简介: 本文由 Bigo 计算平台负责人徐帅分享,主要介绍 Bigo 实时计算平台建设实践的介绍本文由 Bigo 计算平台负责人徐帅分享,主要介绍 Bigo 实时计算平台建设实践的介绍.内容包括: ...
那些你不知道的TCP冷门知识！
简介: 最近在做数据库相关的事情,碰到了很多TCP相关的问题,新的场景新的挑战,有很多之前并没有掌握透彻的点,大大开了一把眼界,选了几个案例分享一下. 最近在做数据库相关的事情,碰到了很多TCP相关的 ...
[ML] 机器学习简介
监督学习(Supervised Learning) 添加标签,手把手训练. 比如线性回归算法. 半监督学习(Semi-supervised Learning) 非监督学习(Unsupervised L ...
[FAQ] Vue 如何控制标签元素的某个属性的显示？
这需要借助 v-model 的用法,动态决定元素的展示. <q-btn :disable="2 > 1">按钮</q-btn> 展示结果是:<q ...
11.Node节点维护
题目:Node节点维护配置环境kubectl config use-context ek8s 将名为ek8s-node-0的node节点设置为不可用,并重新调度该node上所有运行的pods. 官方 ...