数据分析面试题之Pandas中的groupby

昨天晚上，笔者有幸参加了一场面试，有一个环节就是现场编程！题目如下：

示例数据如下，求每名学生（ID）对应的成绩（score）最高的那门科目（class）与ID，用Python实现：

这个题目看上去很简单，其实，并不简单。即要求输出形式如下：

当然，我们一开始能先到的是利用Pandas中的groupby，按ID做groupby，按score取最大值，可是之后的过程就难办了，是将得到的结果与原表做join，还是再想其他办法？

怎么办？答案就是Pandas中groupby的官方文档说明，网址为：http://pandas.pydata.org/pandas-docs/stable/api.html#groupby。截图如下：

本文将会用到其中的三个函数： idxmax(), idxmin(), rank().

其实，让我们来解决一开始提出的问题，Python代码如下：

import pandas as pd

df = pd.read_csv("E://score.csv")

new_df = df.groupby("ID")["score"].idxmax()

for i in new_df:

    print(df.iloc[i, :].tolist()[0:2])

分析代码，df.groupby("ID")["score"].idxmax()是对原数据按ID做groupby，然后取score列，用idxmax(）取出成绩最好的行。然后取出这些行即可。

当然，上述代码存在两个衍生问题：

每名学生（ID）对应的成绩（score）最低的那门科目（class）与ID；
若有学生他的某些科目的成绩是一样的，求每名学生对应的成绩最高的那些科目与ID。

第一个问题，很好解决，在原先的代码中，将idxmax()替换为idxmin()即可，输出的结果如下：

[1, 'C']

[2, 'A']

[3, 'C']

[4, 'A']

第二个问题，如果有学生他的某些科目的成绩是一样的，如下面的示例数据：

在上面数据中，第1,3名学生的最高成绩存在重复。这是，我们需要用到rank()函数，Python代码如下:

import pandas as pd

import numpy as np

df = pd.read_csv("E://score.csv")

df["rank"] = df.groupby("ID")["score"].rank(method="min", ascending=False).astype(np.int64)

#print(df)

print(df[df["rank"] == 1][["ID", "class"]])

输出结果如下：

    ID class

0    1     A

1    1     B

5    2     C

7    3     B

8    3     C

11   4     C

可以看到，我们得到的df这个数据框添加了一列rank,就是每名学生的科目的成绩排名，得到的df如下：

    ID class  score  rank

0    1     A     90     1

1    1     B     90     1

2    1     C     70     3

3    2     A     60     3

4    2     B     80     2

5    2     C    100     1

6    3     A     90     3

7    3     B    100     1

8    3     C    100     1

9    4     A     70     3

10   4     B     80     2

11   4     C     90     1

然后按需要取出数据即可。

本次分享到此结束，欢迎大家交流~~

注意：本人现已开通微信公众号： Python爬虫与算法（微信号为：easy_web_scrape），欢迎大家关注哦~~

数据分析面试题之Pandas中的groupby的更多相关文章

python库学习笔记——分组计算利器：pandas中的groupby技术
最近处理数据需要分组计算,又用到了groupby函数,温故而知新. 分组运算的第一阶段,pandas 对象(无论是 Series.DataFrame 还是其他的)中的数据会根据你所提供的一个或多个键被 ...
（数据科学学习手札99）掌握pandas中的时序数据分组运算
本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介我们在使用pandas分析处理时间序列数据 ...
（数据科学学习手札69）详解pandas中的map、apply、applymap、groupby、agg
*从本篇开始所有文章的数据和代码都已上传至我的github仓库:https://github.com/CNFeffery/DataScienceStudyNotes 一.简介 pandas提供了很多方 ...
pandas pivot_table或者groupby实现sql 中的count distinct 功能
pandas pivot_table或者groupby实现sql 中的count distinct 功能 import pandas as pd import numpy as np data = p ...
python数据分析pandas中的DataFrame数据清洗
pandas中的DataFrame中的空数据处理方法: 方法一:直接删除 1.查看行或列是否有空格(以下的df为DataFrame类型,axis=0,代表列,axis=1代表行,以下的返回值都是行或列 ...
pandas.DataFrame的groupby()方法的基本使用
pandas.DataFrame的groupby()方法是一个特别常用和有用的方法.让我们快速掌握groupby()方法的基础使用,从此数据分析又多一法宝. 首先导入package: import p ...
史上最全的spark面试题——持续更新中
史上最全的spark面试题——持续更新中 2018年09月09日 16:34:10 为了九亿少女的期待阅读数 13696更多分类专栏: Spark 面试题版权声明:本文为博主原创文章,遵循C ...
Python学习教程：Pandas中第二好用的函数
从网上看到一篇好的文章是关于如何学习python数据分析的迫不及待想要分享给大家,大家也可以点链接看原博客.希望对大家的学习有帮助. 本次的Python学习教程是关于Python数据分析实战基础相关内 ...
万字长文，Python数据分析实战，使用Pandas进行数据分析
文章目录很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案例的人,却不知道如何去学习更加高深的知识.那么针对这三类人,我给大家 ...

随机推荐

php倒计时
<form name="form1"> <div align="center" align="center"> &l ...
【转载】 .NET框架设计—常被忽视的C#设计技巧
阅读目录: 1.开篇介绍 2.尽量使用Lambda匿名函数调用代替反射调用(走进声明式设计) 3.被忽视的特性(Attribute)设计方式 4.扩展方法让你的对象如虎添翼(要学会使用扩展方法的设计思 ...
webstorm验证码
2017-2-16 亲测可用 http://idea.imsxm.com/ webstorm10 注册码 User or company Name: EMBRACE ===== LICENSE KEY ...
SQL数据库约束、默认和规则
数据的完整性实体完整性又称为行完整性,即数据库中的所有行都具有一个非空且没有重复的主键值 MSSQL中通过唯一索引.PRIMARY KEY约束.UNIQUE约束.INDENTITY属性等来强制主键 ...
中间件 activeMQ Jms Java Demo
一.什么是ActiveMQ 百度解释: ActiveMQ 是Apache出品,最流行的,能力强劲的开源消息总线.ActiveMQ 是一个完全支持JMS1.1和J2EE 1.4规范的 JMS Provi ...
centos 7 默认图形界面(或者字符界面)启动
1.切换到管理员用户 2.systemctl get-default命令获取当前模式(可以省去) 3.systemctl set-default graphical.target 修改启动模式(修改为 ...
Ftp主动模式和被动模式以及java连接ftp模式设置
Ftp主动模式和被动模式以及java连接ftp模式设置 https://www.cnblogs.com/huhaoshida/p/5412615.html (1) PORT(主动模式) PORT中文称 ...
干货---stm32f103之DMA双缓冲__也算我为网络贡献的微薄之力
思考再三:终究是要拿出一些干货--单片机基础核心代码,串口的高效率使用请这里开始.--举一反三,我只列出串口一的双dma缓冲应用范例,剩下的自己扩展.并给与了我迄今觉得最好的串口配置架构-感谢野火的高 ...
dcloud 近期遇到的小知识一览
1.form-data时,请求头改变为application/x-www-form-urlencoded. 2.下拉刷新,首先在page.json里面的style将enablePullDownRefr ...
FloatingWindow 悬浮窗开源项目总结
在Android开发中,我们不免会遇到悬浮窗展示的需求,以下是本人之前star的悬浮窗的开源项目,供大家参考: 一.FloatingWindowDemo 开源项目地址:https://github.c ...

数据分析面试题之Pandas中的groupby

数据分析面试题之Pandas中的groupby的更多相关文章

随机推荐

热门专题