Pandas 筛选操作

# 导入相关库

import numpy as np

import pandas as pd

　　在数据处理过程中，经常会遇到要筛选不同要求的数据。通过 Pandas 可以轻松时间，这一篇我们来看下如何使用 Pandas 来完成数据筛选吧

创建数据

index = pd.Index(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"], name="name")

data = {

    "age": [18, 30, np.nan, 40, np.nan, 30],

    "city": ["Bei Jing ", "Shang Hai ", "Guang Zhou", "Shen Zhen", np.nan, " "],

    "sex": [None, "male", "female", "male", np.nan, "unknown"],

    "birth": ["2000-02-10", "1988-10-17", None, "1978-08-08", np.nan, "1988-10-17"]

}

user_info = pd.DataFrame(data=data, index=index)

# 将出生日期转为时间戳

user_info["birth"] = pd.to_datetime(user_info.birth)

user_info

"""

　　　　 age     city    　　sex     birth

name

Tom    18.0    Bei Jing    None    2000-02-10

Bob    30.0    Shang Hai   male    1988-10-17

Mary   NaN     Guang Zhou  female  NaT

James  40.0    Shen Zhen   male    1978-08-08

Andy   NaN     NaN    　　　NaN 　　 NaT

Alice  30.0        　　　　 unknown  1988-10-17

"""

　　Pandas 中除了支持 Python 和 Numpy 的索引运算符[]和属性运算符.来访问数据之外，还有很多其他的方式来访问数据，我们一起来看看吧

字典式 get 访问

　　我们知道，Python 中的字典要获取 value 时可以通过 get 方法来获取，对于 Series 和 DataFrame 也一样，他们一样可以通过 get 方法来获取

# 获取得到所有年龄相关的这一列的信息，结果为一个 Series

user_info.get("age")

# 从包含所有的年龄信息的 Series 中得到 Tom 的年龄

user_info.get("age").get("Tom")

属性访问

　　除了可以通过 get 方法来获取数据之外，还可以通过属性的方式来访问，同样完成上面的功能，来看下如何通过属性访问的方式来实现

# 获取得到所有年龄相关的这一列的信息，结果为一个 Series

user_info.age

# 从包含所有的年龄信息的 Series 中得到 Tom 的年龄

user_info.age.Tom

切片操作

　　在学习 Python 时，会发现列表的切片操作非常地方便，Series 和 DataFrame 同样也有切片操作
　　对于 Series 来说，通过切片可以完成选择指定的行，对于 DataFrame 来说，通过切片可以完成选择指定的行或者列，来看看怎么玩吧

# 筛选行

# 获取年龄的前两行

user_info.age[:2]

# 获取所有信息的前两行

user_info[:2]

# 所有信息每两行选择一次数据

user_info[::2]

# 对所有信息进行反转

user_info[::-1]

# 筛选 DataFrame 中的列

# 筛选出一列数据：将列名传入切片即可完成筛选

user_info["age"]

# 筛选出多列的数据：将对应的列名传入组成一个列表，传入切片中即可

user_info[["city", "age"]]

　　可以看到，列表中的列名的顺序会影响最后的结果

通过数字筛选行和列

　　通过切片操作可以完成筛选行或者列，如何同时筛选出行和列呢？通过 iloc 即可实现， iloc 支持传入行和列的筛选器，并用 , 隔开。无论是行或列筛选器，都可以为以下几种情况：

一个整数，如 2
一个整数列表，如 [2, 1, 4]
一个整数切片对象，如 2:4
一个布尔数组
一个callable

　　先来看下前3种的用法

# 筛选出第一行数据

user_info.iloc[0]

# 筛选出第二行第一列的数据

user_info.iloc[1, 0]

# 筛选出第二行、第一行、第三行对应的第一列的数据

user_info.iloc[[1, 0, 2], 0]

# 筛选出第一行至第三行以及第一列至第二列的数据

user_info.iloc[0:3, 0:2]

# 筛选出第一列至第二列的数据

user_info.iloc[:, 0:2]

通过名称筛选行和列

　　虽然通过 iloc 可以实现同时筛选出行和列，但是它接收的是数字，非常不直观，通过 loc 可实现传入名称来筛选数据， loc 支持传入行和列的筛选器，并用 , 隔开。无论是行或者列筛选器，都可以为以下几种情况：

一个索引的名称，如："Tom"
一个索引的列表，如：["Bob", "Tom"]
一个标签范围，如："Tom": "Mary"
一个布尔数组
一个callable

　　先来看下前3种的用法

# 筛选出索引名称为 Tom 的数据一行数据

user_info.loc["Tom"]

# 筛选出索引名称为 Tom 的年龄

user_info.loc["Tom", "age"]

# 筛选出索引名称在 ["Bob", "Tom"] 中的两行数据

user_info.loc[["Bob", "Tom"]]

# 筛选出索引名称在 Tom 到 Mary 之间的数据

user_info.loc["Tom": "Mary"]

# 筛选出年龄这一列数据

user_info.loc[:, ["age"]]

# 筛选出所有 age 到 birth 之间的这几列数据

user_info.loc[:, "age": "birth"]

布尔索引

　　通过布尔操作我们一样可以进行筛选操作，布尔操作时

& --> and
| --> or
~ --> not

　　当有多个布尔表达式时，需要通过小括号来进行分组

# 筛选出年龄>20的数据

user_info[user_info.age > 20]

# 筛选出年龄在20岁以上，并且性别为男性的数据

user_info[(user_info.age > 20) & (user_info.sex == "male")]

# 筛选出性别不为 unknown 的数据

user_info[~(user_info.sex == "unknown")]

# 筛选出年龄>20，只显示age字段的数据

user_info.loc[user_info.age > 20, ["age"]]

isin 筛选

　　Series 包含了 isin 方法，它能够返回一个布尔向量，用于筛选数据

# 筛选出性别属于 male 和 female的数据

user_info[user_info.sex.isin(["male", "female"])]

# 筛选出索引为Bob的数据

user_info[user_info.index.isin(["Bob"])]

Callable 筛选

　　loc、iloc、切片操作都支持接收一个 callable 函数，callable 必须是带有一个参数（调用Series，DataFrame）的函数，并且返回用于索引的有效输出

# 筛选age>20的数据

user_info[lambda df: df["age"] > 20]

# 筛选age>20，返回age字段的数据

user_info.loc[lambda df: df.age > 20, lambda df: ["age"]]

# 筛选行索引为0和5，列索引为0的数据

user_info.iloc[lambda df: [0, 5], lambda df: [0]]