Pandas 筛选操作
# 导入相关库
import numpy as np
import pandas as pd
在数据处理过程中,经常会遇到要筛选不同要求的数据。通过 Pandas 可以轻松时间,这一篇我们来看下如何使用 Pandas 来完成数据筛选吧
创建数据
index = pd.Index(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"], name="name")
data = {
"age": [18, 30, np.nan, 40, np.nan, 30],
"city": ["Bei Jing ", "Shang Hai ", "Guang Zhou", "Shen Zhen", np.nan, " "],
"sex": [None, "male", "female", "male", np.nan, "unknown"],
"birth": ["2000-02-10", "1988-10-17", None, "1978-08-08", np.nan, "1988-10-17"]
}
user_info = pd.DataFrame(data=data, index=index)
# 将出生日期转为时间戳
user_info["birth"] = pd.to_datetime(user_info.birth)
user_info """
age city sex birth
name
Tom 18.0 Bei Jing None 2000-02-10
Bob 30.0 Shang Hai male 1988-10-17
Mary NaN Guang Zhou female NaT
James 40.0 Shen Zhen male 1978-08-08
Andy NaN NaN NaN NaT
Alice 30.0 unknown 1988-10-17
"""
Pandas 中除了支持 Python 和 Numpy 的索引运算符[]和属性运算符.来访问数据之外,还有很多其他的方式来访问数据,我们一起来看看吧
字典式 get 访问
我们知道,Python 中的字典要获取 value 时可以通过 get 方法来获取,对于 Series 和 DataFrame 也一样,他们一样可以通过 get 方法来获取
# 获取得到所有年龄相关的这一列的信息,结果为一个 Series
user_info.get("age")
# 从包含所有的年龄信息的 Series 中得到 Tom 的年龄
user_info.get("age").get("Tom")
属性访问
除了可以通过 get 方法来获取数据之外,还可以通过属性的方式来访问,同样完成上面的功能, 来看下如何通过属性访问的方式来实现
# 获取得到所有年龄相关的这一列的信息,结果为一个 Series
user_info.age
# 从包含所有的年龄信息的 Series 中得到 Tom 的年龄
user_info.age.Tom
切片操作
在学习 Python 时,会发现列表的切片操作非常地方便,Series 和 DataFrame 同样也有切片操作
对于 Series 来说,通过切片可以完成选择指定的行,对于 DataFrame 来说,通过切片可以完成选择指定的行或者列,来看看怎么玩吧
# 筛选行
# 获取年龄的前两行
user_info.age[:2]
# 获取所有信息的前两行
user_info[:2]
# 所有信息每两行选择一次数据
user_info[::2]
# 对所有信息进行反转
user_info[::-1] # 筛选 DataFrame 中的列
# 筛选出一列数据:将列名传入切片即可完成筛选
user_info["age"]
# 筛选出多列的数据:将对应的列名传入组成一个列表,传入切片中即可
user_info[["city", "age"]]
可以看到,列表中的列名的顺序会影响最后的结果
通过数字筛选行和列
通过切片操作可以完成筛选行或者列,如何同时筛选出行和列呢?通过 iloc 即可实现, iloc 支持传入行和列的筛选器,并用 , 隔开。无论是行或列筛选器, 都可以为以下几种情况:
- 一个整数,如 2
- 一个整数列表,如 [2, 1, 4]
- 一个整数切片对象,如 2:4
- 一个布尔数组
- 一个callable
先来看下前3种的用法
# 筛选出第一行数据
user_info.iloc[0]
# 筛选出第二行第一列的数据
user_info.iloc[1, 0]
# 筛选出第二行、第一行、第三行对应的第一列的数据
user_info.iloc[[1, 0, 2], 0]
# 筛选出第一行至第三行以及第一列至第二列的数据
user_info.iloc[0:3, 0:2]
# 筛选出第一列至第二列的数据
user_info.iloc[:, 0:2]
通过名称筛选行和列
虽然通过 iloc 可以实现同时筛选出行和列,但是它接收的是数字,非常不直观, 通过 loc 可实现传入名称来筛选数据, loc 支持传入行和列的筛选器,并用 , 隔开。无论是行或者列筛选器,都可以为以下几种情况:
- 一个索引的名称,如:"Tom"
- 一个索引的列表,如:["Bob", "Tom"]
- 一个标签范围,如:"Tom": "Mary"
- 一个布尔数组
- 一个callable
先来看下前3种的用法
# 筛选出索引名称为 Tom 的数据一行数据
user_info.loc["Tom"]
# 筛选出索引名称为 Tom 的年龄
user_info.loc["Tom", "age"]
# 筛选出索引名称在 ["Bob", "Tom"] 中的两行数据
user_info.loc[["Bob", "Tom"]]
# 筛选出索引名称在 Tom 到 Mary 之间的数据
user_info.loc["Tom": "Mary"] # 筛选出年龄这一列数据
user_info.loc[:, ["age"]]
# 筛选出所有 age 到 birth 之间的这几列数据
user_info.loc[:, "age": "birth"]
布尔索引
通过布尔操作我们一样可以进行筛选操作,布尔操作时
- & --> and
- | --> or
- ~ --> not
当有多个布尔表达式时,需要通过小括号来进行分组
# 筛选出年龄>20的数据
user_info[user_info.age > 20]
# 筛选出年龄在20岁以上,并且性别为男性的数据
user_info[(user_info.age > 20) & (user_info.sex == "male")]
# 筛选出性别不为 unknown 的数据
user_info[~(user_info.sex == "unknown")] # 筛选出年龄>20,只显示age字段的数据
user_info.loc[user_info.age > 20, ["age"]]
isin 筛选
Series 包含了 isin 方法,它能够返回一个布尔向量,用于筛选数据
# 筛选出性别属于 male 和 female的数据
user_info[user_info.sex.isin(["male", "female"])] # 筛选出索引为Bob的数据
user_info[user_info.index.isin(["Bob"])]
Callable 筛选
loc、iloc、切片操作都支持接收一个 callable 函数,callable 必须是带有一个参数(调用Series,DataFrame)的函数,并且返回用于索引的有效输出
# 筛选age>20的数据
user_info[lambda df: df["age"] > 20]
# 筛选age>20,返回age字段的数据
user_info.loc[lambda df: df.age > 20, lambda df: ["age"]]
# 筛选行索引为0和5,列索引为0的数据
user_info.iloc[lambda df: [0, 5], lambda df: [0]]
Pandas 筛选操作的更多相关文章
- Pandas 常见操作详解
Pandas 常见操作详解 很多人有误解,总以为Pandas跟熊猫有点关系,跟gui叔创建Python一样觉得Pandas是某某奇葩程序员喜欢熊猫就以此命名,简单介绍一下,Pandas的命名来自于面板 ...
- pandas高级操作
pandas高级操作 import numpy as np import pandas as pd from pandas import DataFrame,Series 替换操作 替换操作可以同步作 ...
- jQuery-1.9.1源码分析系列(十二) 筛选操作
在前面分析的时候也分析了部分筛选操作(详见),我们接着分析,把主要的几个分析一下. jQuery.fn.find( selector ) find接受一个参数表达式selector:选择器(字符串). ...
- jQuery之筛选操作
jQuery之筛选操作 筛选操作分三大类:过滤,查找,串联 eq(),first(),last(),hasClass(),filter(),is() html代码 jQuery代码 效果如下: map ...
- pandas数据操作
pandas数据操作 字符串方法 Series对象在其str属性中配备了一组字符串处理方法,可以很容易的应用到数组中的每个元素 t = pd.Series(['a_b_c_d','c_d_e',np. ...
- 【跟着stackoverflow学Pandas】Select rows from a DataFrame based on values in a column -pandas 筛选
最近做一个系列博客,跟着stackoverflow学Pandas. 以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序: https://stack ...
- 【452】pandas筛选出表中满足另一个表所有条件的数据
参考:pandas筛选出表中满足另一个表所有条件的数据 参考:pandas:匹配两个dataframe 使用 pd.merge 来实现 on 表示查询的 columns,如果都有 id,那么这是很好的 ...
- Excel筛选操作
Excel的筛选操作如下: 选中指定列: 点击"开始"中的"排序和筛选" 点击如下小三角即可按条件进行筛选
- 用Python的pandas框架操作Excel文件中的数据教程
用Python的pandas框架操作Excel文件中的数据教程 本文的目的,是向您展示如何使用pandas 来执行一些常见的Excel任务.有些例子比较琐碎,但我觉得展示这些简单的东西与那些你可以在其 ...
随机推荐
- vultr恢复快照后更改密码(CentOs7)
vultr恢复快照之后发现Xshell连不上了,仔细想想应该是之前换服务器的时候恢复快照导致密码更改了, 但是我已经把之前的服务器删了,没记住密码,这就很难受 只好改密码了 首先去官网 打开终端: 最 ...
- Knative 暂时不会捐给任何基金会 | 云原生生态周报 Vol. 22
作者 | 新胜.心贵.进超.元毅.衷源 业界要闻 谷歌:不会向任何基金会捐赠 Knative 自 Knative 项目开始以来,一直存在关于是否将 Knative 捐赠给基金会(例如 CNCF)的疑问 ...
- Java的一些基础知识深入
1.浅析Java中的final关键字: 2.Java中的static关键字解析: 3.探秘Java中String.StringBuilder以及StringBuffer: 4.Java内部类详解: 5 ...
- 扛住阿里双十一高并发流量,Sentinel是怎么做到的?
Sentinel 承接了阿里巴巴近 10 年的双十一大促流量的核心场景 本文介绍阿里开源限流熔断方案Sentinel功能.原理.架构.快速入门以及相关框架比较 基本介绍 1 名词解释 服务限流 :当系 ...
- 从干将莫邪的故事说起--java比较操作注意要点
故事背景 <搜神记>: 楚干将.莫邪为楚王作剑,三年乃成.王怒,欲杀之.剑有雌雄.其妻重身当产.夫语妻曰:“吾为王作剑,三年乃成.王怒,往必杀我.汝若生子是男,大,告之曰:‘出户望南山,松 ...
- A-08 拉格朗日对偶性
目录 拉格朗日对偶性 一.原始问题 1.1 约束最优化问题 1.2 广义拉格朗日函数 1.3 约束条件的考虑 二.对偶问题 三.原始问题和对偶问题的关系 3.1 定理1 3.2 推论1 3.3 定理2 ...
- python编程基础之二十七
列表生成式:[exp for iter_var in iterable] 同样也会有字典生成式,集合生成式,没有元组生成式,元组生成式的语法被占用了 字典生成式,集合生成式,就是外面那个括号换成{} ...
- [ERROR ImagePull]: failed to pull image [k8s.gcr.io/kube-apiserver-amd64:v1.11.1]: exit status 1
问题描述 [root@localhost ~]# kubeadm init --kubernetes-version=v1.11.1 --pod-network-cidr=10.244.0.0/16 ...
- 使用Xming显示Oracle Linux图形界面
如果你在尝试各种官方说明文档中的方法之后,xclock仍然无法远程显示. 系统 Win10 - Oracle Linux 7.5 Xming的文档以及网上教程都说的是Xming相关的配置 但是,要显示 ...
- .Net Core API使用ODP.NET操作Oracle数据库
.Net Core API使用ODP.NET操作Oracle数据库 1.下载Oracle.ManagerDataAccess.Core. 右键依赖项——管理NuGet程序包. 在浏览选项中查询Orac ...