pandas读取Excel、csv文件中的数据时,得到的大多是表格型的二维数据,在pandas中对应的即为DataFrame数据结构。在处理这类数据时,往往要根据据需求先获取数据中的子集,如某些列、某些行、行列交叉的部分等。可以说子集选取是一个非常基础、频繁使用的操作,而DataFrame的子集选取看似简单却有一定复杂性。本文聚焦DataFrame的子集选取操作逻辑,力求在实战中遇到子集选取操作的需求时"不迷路"。


主目录

一、图解DataFrame

DataFrame是一种二维的表格型数据结构,每一行/列都有对应的标签位置序号。行列标签、位置序号的对应关系如下图所示:


图解DataFrame行列标签、位置序号
  • 列标签(也叫列名:columns)
  • 行标签(也叫行索引:index)默认为(0, 1, 2, …, n)。这里与位置序号恰好一致。

针对DataFrame的数据结构,pandas提供了三种获取子集的索引器:[].loc[].iloc[]

  • df[]:快捷的整行整列选取

  • df.loc[]:按标签的行列交叉选取

  • df.iloc[]:按位置序号的行列交叉选取

二、整行整列选取:df[]

df['列标签'],选取单个整列

# 选取“日期”列
df['日期']

df[标签列表],选取多个整列

# 选取“最高温”,“最低温”,“风力风向”三列
df[['最高温','最低温','风力风向']]

df[切片],选取整行

# 选取行索引值1、2、3的整行。切片左闭右开
df[1:4]

切片语法也支持字符串的索引标签值,如将"日期"列修改为行索引(index)

df1 = df.set_index("日期")
# 下面两个切片选取的行是一样的
df1[1:4]  #按位置序号的切片,左闭右开
df1['2021-12-02 周四':'2021-12-04 周六']  # 按行标签的切片,左闭右闭

df[]语法小结:

  • df[]语法中,方括号内输入标签名列表选取的是列;而方括号内输入切片条件选取的是行(条件筛选在下文单独介绍)。
  • df[]输入切片选取整行时,如果是按照位置序号的切片,左闭右开;按行标签的切片,左闭右闭。

三、行列交叉选取

行列交叉选择,可以通过df.loc[]df.iloc[]两个索引器来实现,两者都需要输入两组参数,先行选择,后列选择。行、列选择都可以是单个标签(序号)、列表和切片。根据需求组合使用,威力强大!

df.loc[行选择,列选择]。参数面向的是标签

df.iloc[行位置序号,列位置序号]。参数面向的是位置序号

  • :单个数值,:单个数值
df1.loc['2021-12-05 周日','空气质量指数']
df1.iloc[4,4]

image-20220503121009320
  • :列表,:列表
df1.loc[['2021-12-05 周日','2021-12-07 周二'],['最高温','最低温','风力风向']]
df1.iloc[[4,6],[0,1,3]]

image-20220503121028556
  • :切片,:切片
df1.loc['2021-12-01 周三':'2021-12-03 周五','天气':'空气质量指数']
df1.iloc[:3,2:5]

image-20220503121044354
  • :切片(全选),:列表
df1.loc[:,['最高温','最低温']]
df1.iloc[:,[0,1]]

image-20220503121102550

四、按条件筛选子集

df.[]df.loc[]df.iloc[]除了按照行列的标签和位置序号选取子集,还可以使用条件(布尔表达式)筛选子集。

筛选最高温、最低温

将最高温、最低温处理成数值型:

df1.loc[:,'最高温'] = df1['最高温'].str.replace('°','').astype('float32')
df1.loc[:,'最低温'] = df1['最低温'].str.replace('°','').astype('float32')

温度处理成数值

获取最高温大于10度,最低温小于6度的数据

#  df.[]的写法
df1[(df1['最高温']>10) & (df1['最低温']<6)]
#  df.loc[]的写法
df1.loc[(df1['最高温']>10) & (df1['最低温']<6),:]
# &与、|或、~非
df1.loc[(df1['最高温']>10) & ~(df1['最低温']>=6),:]

基于温度的条件筛选

五、函数筛选子集

# 匿名函数lambda表达式,获取最高温大于10度,最低温小于6度的数据
df1.loc[lambda df : (df['最高温']>10) & (df['最低温']<6)]

获取前9天并且空气质量指数为优

# 自定义函数,返回值是布尔数组
def queryData(df):
    return df.index.str.startswith('2021-12-0') & df['空气质量指数'].str.endswith('优')

df1.loc[queryData , :]

函数查询

小结

在pandast提供的df[]df.loc[]df.iloc[]这个三种索引器,前两个更为常用。df[]在整行或者整列获取时更为方便。整行整列选取可以看作是行列交叉选取的一个特例,故df.loc[]是更为通用的方法,它支持单个标签值、列表多选、切片区间、条件(布尔)表达式、函数调用五种方式索引子集,功能强大。

pandas子集选取的三种方法:[]、.loc[]、.iloc[]的更多相关文章

  1. 三种方法实现PCA算法(Python)

    主成分分析,即Principal Component Analysis(PCA),是多元统计中的重要内容,也广泛应用于机器学习和其它领域.它的主要作用是对高维数据进行降维.PCA把原先的n个特征用数目 ...

  2. Python使用三种方法实现PCA算法[转]

    主成分分析(PCA) vs 多元判别式分析(MDA) PCA和MDA都是线性变换的方法,二者关系密切.在PCA中,我们寻找数据集中最大化方差的成分,在MDA中,我们对类间最大散布的方向更感兴趣. 一句 ...

  3. C#中??和?分别是什么意思? 在ASP.NET开发中一些单词的标准缩写 C#SESSION丢失问题的解决办法 在C#中INTERFACE与ABSTRACT CLASS的区别 SQL命令语句小技巧 JQUERY判断CHECKBOX是否选中三种方法 JS中!=、==、!==、===的用法和区别 在对象比较中,对象相等和对象一致分别指的是什么?

    C#中??和?分别是什么意思? 在C#中??和?分别是什么意思? 1. 可空类型修饰符(?):引用类型可以使用空引用表示一个不存在的值,而值类型通常不能表示为空.例如:string str=null; ...

  4. opencv图像阈值设置的三种方法

    1.简单阈值设置   像素值高于阈值时,给这个像素赋予一个新值(可能是白色),否则我们给它赋予另外一种颜色(也许是黑色).这个函数就是 cv2.threshhold().这个函数的第一个参数就是原图像 ...

  5. Pandas查询数据的几种方法

    Pandas查询数据 Pandas查询数据的几种方法 df.loc方法,根据行.列的标签值查询 df.iloc方法,根据行.列的数字位置查询 df.where方法 df.query方法 .loc既能查 ...

  6. 像画笔一样慢慢画出Path的三种方法(补充第四种)

    今天大家在群里大家非常热闹的讨论像画笔一样慢慢画出Path的这种效果该如何实现. 北京-LGL 博客号@ligl007发起了这个话题.然后各路高手踊跃发表意见.最后雷叔 上海-雷蒙 博客号@雷蒙之星 ...

  7. JAVA之线程同步的三种方法

    最近接触到一个图片加载的项目,其中有声明到的线程池等资源需要在系统中线程共享,所以就去研究了一下线程同步的知识,总结了三种常用的线程同步的方法,特来与大家分享一下.这三种方法分别是:synchroni ...

  8. java解析xml的三种方法

    java解析XML的三种方法 1.SAX事件解析 package com.wzh.sax; import org.xml.sax.Attributes; import org.xml.sax.SAXE ...

  9. 【Android】Eclipse自动编译NDK/JNI的三种方法

    [Android]Eclipse自动编译NDK/JNI的三种方法 SkySeraph Sep. 18th  2014 Email:skyseraph00@163.com 更多精彩请直接访问SkySer ...

随机推荐

  1. JDBC 中文编码

    在使用JDBC开发的过程中,通常会遇到中文保存到数据库乱码的问题. 这个问题的产生有3个方面: 数据库,包括数据库编码.表编码.字段编码等 在Java Web 程序中,请求对象(Request)未进行 ...

  2. 列举 Spring Framework 的优点?

    由于 Spring Frameworks 的分层架构,用户可以自由选择自己需要的组件. Spring Framework 支持 POJO(Plain Old Java Object) 编程,从而具备持 ...

  3. 你将如何使用 thread dump?你将如何分析 Thread dump?

    新建状态(New) 用 new 语句创建的线程处于新建状态,此时它和其他 Java 对象一样,仅仅在堆区 中被分配了内存. 就绪状态(Runnable) 当一个线程对象创建后,其他线程调用它的 sta ...

  4. 学习Nginx(三)

      nginx的性能测试及常用优化手段 一.nginx的性能测试及对比 1.环境准备 [root@test8_hadoop_kaf ~]# yum install -y httpd-tools [ro ...

  5. pygame.error: video system not initialized

    在pygame写游戏出现pygame.error: video system not initialized 源代码 import sysimport pygamedef run_game(): py ...

  6. ACM - 最短路 - AcWing 851 spfa求最短路

    AcWing 851 spfa求最短路 题解 以此题为例介绍一下图论中的最短路算法 \(Bellman\)-\(Ford\) 算法.算法的步骤和正确性证明参考文章最短路径(Bellman-Ford算法 ...

  7. IE中input标签密码框与文本框宽度不一样问题

    前言 在项目登录界面中有账户和密码的输入框,在Chrome中显示是正常的(本人使用的是Chrome浏览器,平时不用IE).等部署到客户的服务器上,访问时发现一个问题,在IE浏览器中文本框与密码框的宽度 ...

  8. x64 番外篇——保护模式相关

    写在前面   此系列是本人一个字一个字码出来的,包括示例和实验截图.由于系统内核的复杂性,故可能有错误或者不全面的地方,如有错误,欢迎批评指正,本教程将会长期更新. 如有好的建议,欢迎反馈.码字不易, ...

  9. python-使用函数输出指定范围内Fibonacci数的个数

    本题要求实现一个计算Fibonacci数的简单函数,并利用其实现另一个函数,输出两正整数m和n(0<m<n≤100000)之间的所有Fibonacci数的数目. 所谓Fibonacci数列 ...

  10. PAT B1061判断题

    题目描述: 判断题的评判很简单,本题就要求你写个简单的程序帮助老师判题并统计学生们判断题的得分. 输入格式: 输入在第一行给出两个不超过 100 的正整数 N 和 M,分别是学生人数和判断题数量.第二 ...