最近做一个系列博客,跟着stackoverflow学Pandas。

以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序:

https://stackoverflow.com/questions/tagged/pandas?sort=votes&pageSize=15

Select rows from a DataFrame based on values in a column -pandas 筛选

https://stackoverflow.com/questions/17071871/select-rows-from-a-dataframe-based-on-values-in-a-column-in-pandas

pandas的筛选功能,跟excel的筛选功能类似,但是功能更强大。

在SQL数据中, 我们可以用这样的语句:

select * from table where colume_name = some_value. 

bool 索引

在Pandas的DataFrame格式中可以采用 bool 值作为索引,选取数据行。比如:

import pandas as pd

# Create data set
d = {'foo':[100, 111, 222],
     'bar':[333, 444, 555]}
df = pd.DataFrame(d)
# Full dataframe:
df
# Shows:
#    bar   foo
# 0  333   100
# 1  444   111
# 2  555   222

# bool 值索引

df[[True, False, True]] # 或 df.loc[[True, False, True]]
# 都可以得到

#   bar foo
#0  333 100
#1  444 111

所以,如果想通过数值来对行进行筛选,我们可以通过构造bool值来选择DataFrame的行

  1. df[df['column_name'] == some_value] 如果是数值型,也可以采用 >/<

  2. df[df['column_name'].isin(some_values)] some_values 可以是单个变量,也可以是list 或者迭代器

  3. 组合多种条件

df[(df['column_name'] == some_value) & df['other_column'].isin(some_values)]

df[(df['column_name'] == some_value) | df['other_column'].isin(some_values)]
#注意,& | 的优先级很高,所以每个条件都需要一个括号
  1. 不等于,可以使用
df[~df['column_name'].isin(some_values)]

df[df['column_name'] != some_value]

np.where

与上面所述的方法有所不同, np.where 返回的是行的位置,所以在获取行时不能采用df, 要采用df.loc 或者 df.iloc

np.where(df.A.values=='foo')
# (array([0, 2, 4, 6, 7]),)
df.iloc[np.where(df.A.values=='foo')]

query

DataFrame 提供了query函数,方便我们可以采用表达式来进行数据的筛选。

参考:

http://pandas.pydata.org/pandas-docs/version/0.17.0/indexing.html#indexing-query

n = 10
df = pd.DataFrame(np.random.randint(n, size=(n, 2)), columns=list('bc'))

#    b  c
# 0  9  0
# 1  1  2
# 2  2  4
# 3  7  6
# 4  6  4
# 5  4  7
# 6  2  9
# 7  4  8
# 8  6  2
# 9  9  0

df.query('index > b > c')
#   b   c
# 8 6   2

#可以采用的表达式很多,比如
df.query('(a < b) & (b < c)')
df.query('a < b and b < c')
df.query('color == "red"')

时间测评

import pandas as pd
df = pd.DataFrame({'A': 'foo bar foo bar foo bar foo foo'.split(),
                   'B': 'one one two three two two one three'.split()})
df.iloc[np.where(df.A.values=='foo')]

%timeit df.iloc[np.where(df.A.values=='foo')]
#1000 loops, best of 3: 274 µs per loop

%timeit df.loc[np.where(df.A.values=='foo')]
#1000 loops, best of 3: 342 µs per loop

%timeit df.loc[df['A'] == 'foo']
#1000 loops, best of 3: 347 µs per loop

%timeit df[df['A'] == 'foo']
#1000 loops, best of 3: 354 µs per loop

%timeit df.loc[df['A'].isin(['foo'])]
#1000 loops, best of 3: 265 µs per loop

%timeit df[df.A=='foo']
#1000 loops, best of 3: 357 µs per loop

%timeit df.query('(A=="foo")')
#1000 loops, best of 3: 943 µs per loop

可以发现采用 df.iloc[np.where(df.A.values=='foo')]df.loc[df['A'].isin(['foo'])] 速度比较快, 而采用query的方法比较慢。

df.loc[df['A'] == 'foo'] 速度快于 df[df['A'] == 'foo']

【跟着stackoverflow学Pandas】Select rows from a DataFrame based on values in a column -pandas 筛选的更多相关文章

  1. 【跟着stackoverflow学Pandas】How to iterate over rows in a DataFrame in Pandas-DataFrame按行迭代

    最近做一个系列博客,跟着stackoverflow学Pandas. 以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序: https://stack ...

  2. 【跟着stackoverflow学Pandas】 - Adding new column to existing DataFrame in Python pandas - Pandas 添加列

    最近做一个系列博客,跟着stackoverflow学Pandas. 以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序: https://stack ...

  3. 【跟着stackoverflow学Pandas】 -Get list from pandas DataFrame column headers - Pandas 获取列名

    最近做一个系列博客,跟着stackoverflow学Pandas. 以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序: https://stack ...

  4. 【跟着stackoverflow学Pandas】add one row in a pandas.DataFrame -DataFrame添加行

    最近做一个系列博客,跟着stackoverflow学Pandas. 以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序: https://stack ...

  5. 【跟着stackoverflow学Pandas】“Large data” work flows using pandas-pandas大数据处理流程

    最近做一个系列博客,跟着stackoverflow学Pandas. 以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序: https://stack ...

  6. 【跟着stackoverflow学Pandas】Delete column from pandas DataFrame-删除列

    最近做一个系列博客,跟着stackoverflow学Pandas. 以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序: https://stack ...

  7. 【跟着stackoverflow学Pandas】Renaming columns in pandas-列的重命名

    最近做一个系列博客,跟着stackoverflow学Pandas. 以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序: https://stack ...

  8. 跟着百度学PHP[14]-PDO之Mysql的事务处理2

    前面所将仅仅是在纯mysql下的讲解,这节就是要将其搬到PDO台面上来了. 将自动提交关闭. SetAttribute下有一个PDO::ATTR_AUTOCOMMIT 将其设置为0即可关闭,如:$pd ...

  9. 【跟着大佬学JavaScript】之节流

    前言 js的典型的场景 监听页面的scroll事件 拖拽事件 监听鼠标的 mousemove 事件 ... 这些事件会频繁触发会影响性能,如果使用节流,降低频次,保留了用户体验,又提升了执行速度,节省 ...

随机推荐

  1. 20145333茹翔 《Java程序设计》实验四 实验报告

    实验要求 完成实验.撰写实验报告,实验报告以博客方式发表在博客园,注意实验报告重点是运行结果,遇到的问题(工具查找,安装,使用,程序的编辑,调试,运行等).解决办法(空洞的方法如"查网络&q ...

  2. ECU

    ECU(Electronic Control Unit)电子控制单元,又称“行车电脑”.“车载电脑”等.从用途上讲则是汽车专用微机控制器,也叫汽车专用单片机.它和普通的单片机一样,由微处理器(CPU) ...

  3. [翻译]小提示:使用figure和figcaption元素的正确方式

    figure和figcaption是一对经常被一起使用的语义化标签.如果你还没有看过规范中的定义,现在有机会在你的项目中使用它们了.如果你不知道怎么用,下面是关于如何正确使用它们的一些提示. figu ...

  4. vSphere SDK for Java - 从模板部署虚拟机并配置IP地址

    vSphere for Java类库:vijava    虚拟机配置类 package com.vmware.vcenter_event.VirtualMachine; import com.vmwa ...

  5. UVA 1642 Magical GCD(经典gcd)

    题意:给你n(n<=100000)个正整数,求一个连续子序列使序列的所有元素的最大公约数与个数乘积最大 题解:我们知道一个原理就是对于n+1个数与n个数的最大公约数要么相等,要么减小并且减小至少 ...

  6. Windows下实现mysql定时备份

    1.写MySQL备份bat处理 @echo off set "yMd=%date:~,4%%date:~5,2%%date:~8,2%" set "hms=%time:~ ...

  7. spring 及 spring boot 资源文件配置

    Spring配置文件引入xml文件: <import resource=" " />标签使用总结 https://www.cnblogs.com/javahr/p/83 ...

  8. HDU4910 Problem about GCD

    本文版权归ljh2000和博客园共有,欢迎转载,但须保留此声明,并给出原文链接,谢谢合作. 本文作者:ljh2000 作者博客:http://www.cnblogs.com/ljh2000-jump/ ...

  9. poj 2255 Tree Recovery 分治

    Tree Recovery Description Little Valentine liked playing with binary trees very much. Her favorite g ...

  10. GTID主从 与 传统主从复制

    一.主从复制 1.)普通主从复制: 普通主从复制主要是基于二进制日志文件位置的复制,因此主必须启动二进制日志记录并建立唯一的服务器ID,复制组中的每个服务器都必须配置唯一的服务器ID.如果您省略ser ...