小白学 Python 数据分析（12）：Pandas （十一）数据透视表（pivot

人生苦短，我用 Python

前文传送门：

小白学 Python 数据分析（1）：数据分析基础

小白学 Python 数据分析（2）：Pandas （一）概述

小白学 Python 数据分析（3）：Pandas （二）数据结构 Series

小白学 Python 数据分析（4）：Pandas （三）数据结构 DataFrame

小白学 Python 数据分析（5）：Pandas （四）基础操作（1）查看数据

小白学 Python 数据分析（6）：Pandas （五）基础操作（2）数据选择

小白学 Python 数据分析（7）：Pandas （六）数据导入

小白学 Python 数据分析（8）：Pandas （七）数据预处理

小白学 Python 数据分析（9）：Pandas （八）数据预处理（2）

小白学 Python 数据分析（10）：Pandas （九）数据运算

小白学 Python 数据分析（11）：Pandas （十）数据分组

引言

前文我们介绍了数据分组，今天我们接着介绍一个和数据分组很相似的内容，是数据透视表，从名字上来看是不是感觉没半毛钱关系，实际不然，数据分组是从一维（行）的角度上对数据进行了拆分，如果我们想从二维的角度上（行和列）同时对数据进行拆分呢？

这就需要用到我们今天的主角，数据透视表了。

数据透视表

什么是数据透视表？小编的灵魂画手上线：

图画的不好，各位同学凑合理解。

在 Excel 中，其实也有数据透视表这个东西，在插入中全选数据后点击数据透视表，就会出来这么个东西：

点击确定后会有这么个画面：

具体在 Excel 中如何使用各位同学可以百度查一下，毕竟这里是讲 Python 的地方，关于 Excel 的操作就不多说了，Pandas 的操作和 Excel 的使用还是比较相似的。

在 Pandas 中，实现数据透视表是使用的 pivot_table() 这个方法，首先还是放个官方文档，防止有同学找不到。

官方文档地址： https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html 。

再看下 pivot_table 的语法：

pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All', observed=False) → 'DataFrame'

data: 需要做数据透视的整个表
values: 要汇总的数据项
index: 在数据透视表索引上进行分组的键
columns: 在数据透视表列上进行分组的键
aggfunc: 对 values 的计算类型
fill_value: 空值的填充值
margins: 是否显示合计
dropna: 是否删除缺失，如果未是，则删除缺失数据的那一行
margins_name: 合计类的列名

下面我们来看示例，数据集还是使用上篇文章使用的疫情数据集，先看个简单的示例，我们按照七大洲，看下当前的确诊情况：

import pandas as pd

# 数据导入

epidemic_dxy = pd.read_excel("epidemic_dxy.xlsx")

df = pd.pivot_table(epidemic_dxy, values='currentConfirmedCount', index='continents', aggfunc='sum')

print(df)

# 输出内容

            currentConfirmedCount

continents

亚洲                           5458

其他                            699

北美洲                            99

南美洲                             8

大洋洲                            14

欧洲                           2040

非洲                              3

可以看到，和我们前面的文章中，按照七大洲直接分组的结果是一致的。

这个示例中的 currentConfirmedCount 是我们要统计的值， continents 是我们要拆分的索引， aggfunc 中的 sum 是我们对需要统计的值的统计方式。

这里只是按照一维的方式进行拆分，和分组并没有实际上的区别，接下来我们看从二维的方向上对数据进行拆分：

import pandas as pd

# 数据导入

epidemic_dxy = pd.read_excel("epidemic_dxy.xlsx")

df1 = pd.pivot_table(epidemic_dxy, values='currentConfirmedCount', index='continents', columns='provinceName', aggfunc='sum')

print(df1)

# 输出内容

provinceName   丹麦  亚美尼亚  以色列   伊拉克     伊朗  ...   阿曼   阿联酋      韩国  马来西亚  黎巴嫩

continents                                 ...

亚洲            NaN   1.0  9.0  19.0  749.0  ...  5.0  16.0  4283.0  11.0  3.0

其他            NaN   NaN  NaN   NaN    NaN  ...  NaN   NaN     NaN   NaN  NaN

北美洲           NaN   NaN  NaN   NaN    NaN  ...  NaN   NaN     NaN   NaN  NaN

南美洲           NaN   NaN  NaN   NaN    NaN  ...  NaN   NaN     NaN   NaN  NaN

大洋洲           NaN   NaN  NaN   NaN    NaN  ...  NaN   NaN     NaN   NaN  NaN

欧洲            3.0   NaN  NaN   NaN    NaN  ...  NaN   NaN     NaN   NaN  NaN

非洲            NaN   NaN  NaN   NaN    NaN  ...  NaN   NaN     NaN   NaN  NaN

[7 rows x 65 columns]

因为内容比较多，大部分的内容被折叠掉了。

在上面这个示例中，我们按照七大洲和国家对整个数据表进行了横纵向的拆分，可以看到，整个表中会有很多空值，拿亚洲那一行举例子，因为在我们的原始数据中只有亚洲只有 26 个国家，所以，理论上亚洲那一行应该只有那 26 个国家有数据，实际上也确实如此。

那么，现在有一个简单的小问题，如果我想要知道每条数据的创建时间（ createTime 字段），这个也能行么？

当然可以， pivot_table 支持在横纵向拆分的时候传入一个数组的，如下，我们在 index 上再加一个新的参数 createTime ：

import pandas as pd

# 数据导入

epidemic_dxy = pd.read_excel("epidemic_dxy.xlsx")

df2 = pd.pivot_table(epidemic_dxy, values='currentConfirmedCount', index=['continents', 'createTime'], columns='provinceName', aggfunc='sum')

print(df2)

# 输出内容

provinceName               丹麦  亚美尼亚  以色列   伊拉克  ...   阿联酋      韩国  马来西亚  黎巴嫩

continents createTime                           ...

亚洲         1583138990000  NaN   NaN  9.0  19.0  ...  16.0  4283.0  11.0  3.0

           1583138991000  NaN   1.0  NaN   NaN  ...   NaN     NaN   NaN  NaN

其他         1583138990000  NaN   NaN  NaN   NaN  ...   NaN     NaN   NaN  NaN

北美洲        1583138990000  NaN   NaN  NaN   NaN  ...   NaN     NaN   NaN  NaN

           1583138991000  NaN   NaN  NaN   NaN  ...   NaN     NaN   NaN  NaN

南美洲        1583138990000  NaN   NaN  NaN   NaN  ...   NaN     NaN   NaN  NaN

           1583138991000  NaN   NaN  NaN   NaN  ...   NaN     NaN   NaN  NaN

大洋洲        1583138990000  NaN   NaN  NaN   NaN  ...   NaN     NaN   NaN  NaN

欧洲         1583138990000  3.0   NaN  NaN   NaN  ...   NaN     NaN   NaN  NaN

           1583138991000  NaN   NaN  NaN   NaN  ...   NaN     NaN   NaN  NaN

非洲         1583138990000  NaN   NaN  NaN   NaN  ...   NaN     NaN   NaN  NaN

[11 rows x 65 columns]

这样，我们就得到了一个新的按照三个规则分别进行横纵向拆分的 DataFrame ，当然，这个 DataFrame 目前并不是一个标准的 DataFrame ，只需要最后一步，使用 reset_index() 重置一下索引就可以了，这里小编就不演示了。

今天的内容比较短，但是对于第一次接触的同学来讲并不是很好理解，建议多动手找个数据集试试看，或者先在 Excel 中进行尝试后再使用 Python 进行理解。

在数据透视表中，获得数据透视表并不难，难点是在于我们想要构建怎么样的新的数据表，我们要真正要获取什么样的数据。

示例代码

老规矩，所有的示例代码都会上传至代码管理仓库 Github 和 Gitee 上，方便大家取用。

示例代码-Github

示例代码-Gitee

小白学 Python 数据分析（12）：Pandas （十一）数据透视表（pivot_table）的更多相关文章

小白学 Python 数据分析（13）：Pandas （十二）数据表拼接
人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础小白学 Python 数据分析(2):Pandas (一)概述小白学 Python 数据分析(3):P ...
小白学 Python 数据分析（10）：Pandas （九）数据运算
人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础小白学 Python 数据分析(2):Pandas (一)概述小白学 Python 数据分析(3):P ...
小白学 Python 数据分析（5）：Pandas （四）基础操作（1）查看数据
在家为国家做贡献太无聊,不如跟我一起学点 Python 人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础小白学 Python 数据分析(2):Panda ...
小白学 Python 数据分析（6）：Pandas （五）基础操作（2）数据选择
人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础小白学 Python 数据分析(2):Pandas (一)概述小白学 Python 数据分析(3):P ...
小白学 Python 数据分析（7）：Pandas （六）数据导入
人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础小白学 Python 数据分析(2):Pandas (一)概述小白学 Python 数据分析(3):P ...
小白学 Python 数据分析（8）：Pandas （七）数据预处理
人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础小白学 Python 数据分析(2):Pandas (一)概述小白学 Python 数据分析(3):P ...
小白学 Python 数据分析（9）：Pandas （八）数据预处理（2）
人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础小白学 Python 数据分析(2):Pandas (一)概述小白学 Python 数据分析(3):P ...
小白学 Python 数据分析（11）：Pandas （十）数据分组
人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础小白学 Python 数据分析(2):Pandas (一)概述小白学 Python 数据分析(3):P ...
小白学 Python 数据分析（15）：数据可视化概述
人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础小白学 Python 数据分析(2):Pandas (一)概述小白学 Python 数据分析(3):P ...

随机推荐

搭建solr8
这里记录linux上的安装过程一.下载安装包 https://lucene.apache.org/solr/downloads.html 二.解压安装这里我放倒了/usr/local/solr目录 ...
54）PHP，访问修饰符
类外就是你再实例化成对象的时候用你类里面的变量继承的类内, 就是子类里面,但是实例化对象时,不能用本类内, 只在本类的定义时用,子类不能用.
LeetCode No.94,95,96
No.94 InorderTraversal 二叉树的中序遍历题目给定一个二叉树,返回它的中序遍历. 示例输入: [1,null,2,3] 1 \ 2 / 3 输出: [1,3,2] 进阶:递 ...
LeetCode No.88,89,90
No.88 Merge 合并两个有序数组题目给定两个有序整数数组 nums1 和 nums2,将 nums2 合并到 nums1 中,使得 num1 成为一个有序数组. 说明: 初始化 nums1 ...
Linux安装svn服务
安装svn yum -y install subversion 创建保存仓库/版本库的目录 mkdir -p /opt/data/svndir 创建仓库/版本库, 这里同时创建两个仓库(project ...
k8s中command、args和dockerfile中的entrypoint、cmd之间的关系
当用户同时写了command和args的时候自然是可以覆盖DockerFile中ENTRYPOINT的命令行和参数,那么对于具体情况呢,比如仅仅写了command或者args的时候呢?完整的情况分类如 ...
安装php7.2
1,yum源默认的版本太低了,手动安装有一些麻烦,所以可以采用yum的方式进行安装. 2,检查当前安装的PHP包yum list installed | grep php 如果有安装的PHP包,先删除 ...
CountingSort（计数排序）原理及C++代码实现
计数排序是需要假设输入数据的排序之一,它假设输入元素是0到k区间内的一个整数,其中k为某个整数.当k=O(n)时,计数排序的时间复杂度为θ(n). 因为不是通过比较来排序,所以它的时间复杂度可以达到θ ...
CAS 5.3.x 相关信息
CAS 5.3.x 相关信息单点登录系统学习网站: https://www.apereo.org/projects/cas 官方网站 https://github.com/apereo/cas-o ...
Hypothesis Tests for One Population Mean When σ Is Unknown|other
9.5 Hypothesis Tests for One Population Mean When σ Is Unknown 使用t分布: What If the Assumptions Are No ...

小白学 Python 数据分析（12）：Pandas （十一）数据透视表（pivot_table）

引言

数据透视表

示例代码

小白学 Python 数据分析（12）：Pandas （十一）数据透视表（pivot_table）的更多相关文章

随机推荐

热门专题