8 层次化索引

层次化索引使你能在一个轴上拥有多个（两个以上）索引级别。抽象的说，它使你能以低维度形式处理高维度数据。

 1 >>> data = pd.Series(np.random.randn(10), index=[['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'd', 'd'], [1, 2, 3, 1, 2, 3, 1, 2, 2, 3]])

 2 >>> data

 3 a  1    3.230188

 4    2    0.596511

 5    3    0.956307

 6 b  1    1.132221

 7    2    0.746174

 8    3    0.470007

 9 c  1    0.880883

10    2    0.757047

11 d  2   -0.028331

12    3    0.382625

13 dtype: float64

14 >>> data.index #带MultiIndex索引的Series的格式化输出形式，索引之间的“间隔”表示“直接使用上面的标签”

15 MultiIndex([('a', 1),

16             ('a', 2),

17             ('a', 3),

18             ('b', 1),

19             ('b', 2),

20             ('b', 3),

21             ('c', 1),

22             ('c', 2),

23             ('d', 2),

24             ('d', 3)],

25            )

26 >>> data['b']  #选取数据子集

27 1    1.132221

28 2    0.746174

29 3    0.470007

30 dtype: float64

31 >>> data['b': 'c']

32 b  1    1.132221

33    2    0.746174

34    3    0.470007

35 c  1    0.880883

36    2    0.757047

37 dtype: float64

38 >>> data.loc[['b', 'd']]

39 b  1    1.132221

40    2    0.746174

41    3    0.470007

42 d  2   -0.028331

43    3    0.382625

44 dtype: float64

45 >>> data[:, 2]  #在“内层”中进行选取

46 a    0.596511

47 b    0.746174

48 c    0.757047

49 d   -0.028331

50 dtype: float64

层次索引在数据重塑和基于和基于分组的操作（如透视表生成）中有重要作用。

如可以通过unstack方法重新安排多层数据到一个DataFrame中。

官方说明：pandas.DataFrame.unstack — pandas 1.3.4 documentation (pydata.org)

 1 >>> data

 2 a  1    3.230188

 3    2    0.596511

 4    3    0.956307

 5 b  1    1.132221

 6    2    0.746174

 7    3    0.470007

 8 c  1    0.880883

 9    2    0.757047

10 d  2   -0.028331

11    3    0.382625

12 dtype: float64

13 >>> data.unstack()

14           1         2         3

15 a  3.230188  0.596511  0.956307

16 b  1.132221  0.746174  0.470007

17 c  0.880883  0.757047       NaN

18 d       NaN -0.028331  0.382625

19 >>> data.unstack().stack()  #stack使unstack的逆运算

20 a  1    3.230188

21    2    0.596511

22    3    0.956307

23 b  1    1.132221

24    2    0.746174

25    3    0.470007

26 c  1    0.880883

27    2    0.757047

28 d  2   -0.028331

29    3    0.382625

30 dtype: float64

对于一个DataFrame，每条轴都可以分成索引，每层都可以由名字（可能是字符串，也可以是别的python对象）。如果指定了名字，它们就会显示在控制台输出中。

 1 >>> frame = pd.DataFrame(np.arange(12).reshape((4, 3)), index=[['a', 'a', 'b', 'b'], [1, 2, 1, -2]], columns=[['Oh', 'Oh', 'Co'], ['Gr', 'Re', 'Gr']])

 3 >>> frame

 4      Oh      Co

 5      Gr  Re  Gr

 6 a  1  0   1   2

 7    2  3   4   5

 8 b  1  6   7   8

 9   -2  9  10  11

10 >>> frame.index.names = ['key1', 'key2']

11 >>> frame.columns.names = ['state', 'color']

12 >>> frame

13 state     Oh      Co

14 color     Gr  Re  Gr

15 key1 key2

16 a     1    0   1   2

17       2    3   4   5

18 b     1    6   7   8

19      -2    9  10  11

20 >>> frame['Oh']

21 color      Gr  Re

22 key1 key2

23 a     1     0   1

24       2     3   4

25 b     1     6   7

26      -2     9  10

8.1 重排分级排序

有时需要调整某条轴上各级别的顺序，或根据指定级别上的值对数据进行排序。

swaplevel接受两个级别编号或名称，并返回一个互换了级别的新对象（当数据不会发生变化）。

官方文档：pandas.DataFrame.swaplevel — pandas 1.3.4 documentation (pydata.org)

 1 >>> frame

 2 state     Oh      Co

 3 color     Gr  Re  Gr

 4 key1 key2

 5 a     1    0   1   2

 6       2    3   4   5

 7 b     1    6   7   8

 8      -2    9  10  11

 9 >>> frame.swaplevel('key1', 'key2')

10 state     Oh      Co

11 color     Gr  Re  Gr

12 key2 key1

13  1   a     0   1   2

14  2   a     3   4   5

15  1   b     6   7   8

16 -2   b     9  10  11

8.2 根据级别汇总统计

许多对DataFrame和Series的描述和汇总统计都有一个level选项，用于指定在某条轴上求和的级别。

 1 >>> frame

 2 state     Oh      Co

 3 color     Gr  Re  Gr

 4 key1 key2

 5 a     1    0   1   2

 6       2    3   4   5

 7 b     1    6   7   8

 8      -2    9  10  11

 9 >>> frame.sum(level='key2')

10 state Oh      Co

11 color Gr  Re  Gr

12 key2

13  1     6   8  10

14  2     3   4   5

15 -2     9  10  11

16 >>> frame.sum(level='color', axis=1)

17 color      Gr  Re

18 key1 key2

19 a     1     2   1

20       2     8   4

21 b     1    14   7

22      -2    20  10

23 >>>

8.3 使用DataFrame的列

经常将DataFrame的一个或多个列当作行索引来使用，或者希望将行索引变成DataFrame的列。

DataFrame的set_index函数会将其一个或多个列转换为行索引，并创建一个新的DataFrame。

 1 >>> frame = pd.DataFrame({'a': range(7), 'b': range(7, 0, -1), 'c': ['one', 'one', 'one', 'two', 'two', 'two', 'two'], 'd': [0, 1, 2, 0, 1, 2, 3]})

 2 >>> frame

 3    a  b    c  d

 4 0  0  7  one  0

 5 1  1  6  one  1

 6 2  2  5  one  2

 7 3  3  4  two  0

 8 4  4  3  two  1

 9 5  5  2  two  2

10 6  6  1  two  3

11 >>> frame2 = frame.set_index(['c', 'd'])

12 >>> frame2

13        a  b

14 c   d

15 one 0  0  7

16     1  1  6

17     2  2  5

18 two 0  3  4

19     1  4  3

20     2  5  2

21     3  6  1

22 >>> frame.set_index(['c', 'd'], drop=False)  #可选择保留那些列

23        a  b    c  d

24 c   d

25 one 0  0  7  one  0

26     1  1  6  one  1

27     2  2  5  one  2

28 two 0  3  4  two  0

29     1  4  3  two  1

30     2  5  2  two  2

31     3  6  1  two  3

reset_index的功能和set_index刚好相反、层次化索引的级别会被转移到列里面：

 1 >>> frame2

 2        a  b

 3 c   d

 4 one 0  0  7

 5     1  1  6

 6     2  2  5

 7 two 0  3  4

 8     1  4  3

 9     2  5  2

10     3  6  1

11 >>> frame2.reset_index()

12      c  d  a  b

13 0  one  0  0  7

14 1  one  1  1  6

15 2  one  2  2  5

16 3  two  0  3  4

17 4  two  1  4  3

18 5  two  2  5  2

19 6  two  3  6  1

pandas基础--层次化索引的更多相关文章

利用Python进行数据分析(11) pandas基础: 层次化索引
层次化索引层次化索引指你能在一个数组上拥有多个索引,例如: 有点像Excel里的合并单元格对么? 根据索引选择数据子集以外层索引的方式选择数据子集: 以内层索引的方式选择数据: 多重索引S ...
pandas中层次化索引与切片
Pandas层次化索引 1. 创建多层索引隐式索引: 常见的方式是给dataframe构造函数的index参数传递两个或是多个数组 Series也可以创建多层索引 Series多层索引 B =Ser ...
pandas基础用法——索引
# -*- coding: utf-8 -*- # Time : 2016/11/28 15:14 # Author : XiaoDeng # version : python3.5 # Softwa ...
Pandas基本功能之层次化索引及层次化汇总
层次化索引层次化也就是在一个轴上拥有多个索引级别 Series的层次化索引 data=Series(np.random.randn(10),index=[ ['a','a','a','b','b', ...
pandas：由列层次化索引延伸的一些思考
1. 删除列层次化索引用pandas利用df.groupby.agg() 做聚合运算时遇到一个问题:产生了列方向上的两级索引,且需要删除一级索引.具体代码如下: # 每个uesr每天消费金额统计:和 ...
pandas（五）处理缺失数据和层次化索引
pandas用浮点值Nan表示浮点和非浮点数组中的缺失数据.它只是一个便于被检测的标记而已. >>> string_data = Series(['aardvark','artich ...
(三）pandas 层次化索引
pandas层次化索引 1. 创建多层行索引 1) 隐式构造最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组 Series也可以创建多层索引 import numpy ...
Python 数据分析（一）本实验将学习 pandas 基础，数据加载、存储与文件格式，数据规整化，绘图和可视化的知识
第1节 pandas 回顾第2节读写文本格式的数据第3节使用 HTML 和 Web API 第4节使用数据库第5节合并数据集第6节重塑和轴向旋转第7节数据转换第8节字符串操作 ...
利用Python进行数据分析(12) pandas基础: 数据合并
pandas 提供了三种主要方法可以对数据进行合并: pandas.merge()方法:数据库风格的合并: pandas.concat()方法:轴向连接,即沿着一条轴将多个对象堆叠到一起: 实例方法c ...
利用Python进行数据分析(9) pandas基础: 汇总统计和计算
pandas 对象拥有一些常用的数学和统计方法. 例如,sum() 方法,进行列小计: sum() 方法传入 axis=1 指定为横向汇总,即行小计: idxmax() 获取最大值对应的索 ...

随机推荐

leetcode：1380. 矩阵中的幸运数
1380. 矩阵中的幸运数给你一个 m * n 的矩阵,矩阵中的数字各不相同 .请你按任意顺序返回矩阵中的所有幸运数. 幸运数是指矩阵中满足同时下列两个条件的元素: 在同一行的所有元素中最小 ...
这些Git事故灾难, 你经历过几个?
前言关于Git, 相信大家最常用的就是pull和push. 但随着协作规模的提升, 遇到的问题也会越来越多. 本篇文章并不科普一些命令的详细用法, 更多的是分享在工作中遇到的Git场景问题以及踩过的 ...
vue项目node-scss装不上问题（ vue执行npm install报错： Can‘t find Python executable “python“, you can set the PYTHON env variable
一.描述从网上下载的一个Vue模板项目,导入VsCode,执行npm install命令后,报错了,报错的信息是node-sass安装失败,同时提示需要python环境的错误信息,这是因为安装node ...
Java实现控制台购书系统
"感谢您阅读本篇博客!如果您觉得本文对您有所帮助或启发,请不吝点赞和分享给更多的朋友.您的支持是我持续创作的动力,也欢迎留言交流,让我们一起探讨技术,共同成长!谢谢!" 代码 im ...
Spring 源码阅读（一）环境搭建
注意事项: 使用 2024-03-14 发布的 Spring 5.3.33 版本 IDE 工具使用了 Intellij IDEA,同时为了简化不必要的内容没单独配置 Gradle 环境 JDK 版本采 ...
力扣238(java)-除自身以外数组的乘积（中等）
题目: 给你一个整数数组 nums,返回数组 answer ,其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积 . 题目数据保证数组 nums之中任意元素的全 ...
Kubernetes 稳定性保障手册 -- 极简版
简介: Kubernetes 在生产环境中的采用率越来越高,复杂度越来越高,由此带来的稳定性保障的挑战越来越大. Kubernetes 在生产环境中的采用率越来越高,复杂度越来越高,由此带来的稳定性保 ...
当Java遇上机密计算，又一段奇幻之旅开始了！
简介: 汪少军:如何为Java业务提供机密计算保护? 写在前面在信息世界里,数据存在三种状态: 存储态.传输态和计算态.存储在数据库或磁盘中的数据属于存储状态,在网络中传输的数据属于传输状态, ...
dotnet 世界猜测随机数的小测试
这是一个半技术向的博客,主题来源于我读过的某本书的片段,这是一个稍稍有些前置知识的故事,主题的大概内容就是假定世界存在某个规则序列,通过一代代的探索,可以获取到此序列的内容.本文将模拟此情形,写一个随 ...
WPF 如何获取有哪些 VisualBrush 用了某个控件
我写了一个特殊的控件,我期望了解到有哪些 VisualBrush 捕获了此控件,或者说有哪些 VisualBrush 用了此控件的界面本文的方法需要用到反射,需要使用 WPF 框架里面没有公开的字段 ...