Select rows from a DataFrame based on values in a column -pandas 筛选
  
  https://stackoverflow.com/questions/17071871/select-rows-from-a-dataframe-based-on-values-in-a-column-in-pandas
  
  pandas的筛选功能,跟excel的筛选功能类似,但是功能更强大。
  
  在SQL数据中, 我们可以用这样的语句:
  
  select * from table where colume_name = some_value.
  
  1
  
  1
  
  bool 索引
  
  在Pandas的DataFrame格式中可以采用 bool 值作为索引,选取数据行。比如:
  
  import pandas as pd
  
  # Create data set
  
  d = {'foo':[100, 111, 222],
  
  'bar':[333, 444, 555]}
  
  df = pd.DataFrame(d)
  
  # Full dataframe:
  
  df
  
  # Shows:
  
  # bar foo
  
  # 0 333 100
  
  # 1 444 111
  
  # 2 555 222
  
  # bool 值索引
  
  df[[True, False, True]] # 或 df.loc[[True, False, True]]
  
  # 都可以得到
  
  # bar foo
  
  #0 333 100
  
  #1 444 111
  
  所以,如果想通过数值来对行进行筛选,我们可以通过构造bool值来选择DataFrame的行
  
  df[df['column_name'] == some_value] 如果是数值型,也可以采用 >/<
  
  df[df['column_name'].isin(some_values)] some_values 可以是单个变量,也可以是list 或者迭代器
  
  组合多种条件
  
  df[(df['column_name'] == some_value) & df['other_column'].isin(some_values)]
  
  df[(df['column_name'] == some_value) | df['other_column'].isin(some_values)]
  
  #注意,& | 的优先级很高,所以每个条件都需要一个括号
  
  不等于,可以使用
  
  df[~df['column_name'].isin(some_values)]
  
  df[df['column_name'] != some_value]
  
  np.where
  
  与上面所述的方法有所不同, np.where 返回的是行的位置,所以在获取行时不能采用df, 要采用df.loc 或者 df.iloc
  
  np.where(df.A.values=='foo')
  
  # (array([0, 2, 4, 6, 7]),)
  
  df.iloc[np.where(df.A.values=='foo')]
  
  query
  
  DataFrame 提供了query函数,方便我们可以采用表达式来进行数据的筛选。
  
  参考:
  
  http://pandas.pydata.org/pandas-docs/version/0.17.0/indexing.html#indexing-query
  
  n = 10
  
  df = pd.DataFrame(np.random.randint(n, size=(n, 2)), columns=list('bc'))
  
  # b c
  
  # 0 9 0
  
  # 1 1 2
  
  # 2 2 4
  
  # 3 7 6
  
  # 4 6 4
  
  # 5 4 7
  
  # 6 2 9
  
  # 7 4 8
  
  # 8 6 2
  
  # 9 9 0
  
  df.query('index > b > c')
  
  # b c
  
  # 8 6 2
  
  #可以采用的表达式很多,比如
  
  df.query('(a < b) & (b < c)')
  
  df.query('a < b and b < c')
  
  时间测评
  
  import pandas as pd
  
  df = pd.DataFrame({'A': 'foo bar foo bar foo bar foo foo'.split(),
  
  'B': 'one one two three two two one www.lieqibiji.com three'.split()})
  
  df.iloc[np.where(df.A.values=='foo')]
  
  %timeit df.iloc[np.where(df.A.values=='foo')]
  
  #1000 loops, best of 3: www.caihonyule.com/ 274 µs per loop
  
  %timeit df.loc[np.where(df.A.values=='foo')]
  
  #1000 loops, best of 3: 342 µs per loop
  
  %timeit df.loc[df['A'] == 'foo']
  
  #1000 loops, best of 3: 347 µs per loop
  
  %timeit df[df['A'] == 'foo']
  
  #1000 loops, best of 3: 354 www.feifanshifan8.cn µs per loop
  
  %timeit df.loc[df['A'].isin(['foo'])]
  
  #1000 loops, best of 3: 265 µs per loop
  
  %timeit df[df.A=='foo']
  
  #1000 loops, best of 3: 357 www.xingchexiu.com µs per loop
  
  %timeit df.query('(A=="www.qinlinyule.cn foo")')
  
  #1000 loops, best of 3: 943 µs per loop
  
  可以发现采用 df.iloc[np.where(df.A.values=='foo')]和 df.loc[df['A'].isin(['foo'])] 速度比较快, 而采用query的方法比较慢。
  
  df.loc[df['A'] == 'foo'] 速度快于 df[df['A'] == 'foo']

pandas的筛选功能,跟excel的筛选功能类似,但是功能更强大。的更多相关文章

  1. DataGridView如何实现列标头带数据筛选功能,就象Excel高级筛选功能一样

    '近日有本论坛网友问:DataGridView如何实现列标头带数据筛选功能,就象Excel高级筛选功能一样 '今晚正好闲着没事,加之以前也没用到过这个需求,所以就写了个模拟功能,供各位坛友酌情参考. ...

  2. NPOI之Excel——自动筛选、数字格式

    设置Excel的自动筛选功能 最新导出数据需要使用Excel的筛选功能,网上多方查找,终于在一个繁体的网站上找到了方法,呃,这个网站还是Java的,讲的是POI,不过.NET的NPOI也就一样用了. ...

  3. excel表格 筛选 通过mysql语句

    1.整理excel表格的数据 类似的 前面有其他符号的 都可以处理. 注意下一步是2个操纵:分别设置左右: 结果: 2.在复制粘贴到excel的时候,会有一些数字被设置成了科学计数法, 例如复制到ex ...

  4. cxGrid控件过滤筛选后如何获更新筛选后的数据集

    cxGrid控件过滤筛选后如何获更新筛选后的数据集 (2015-06-19 12:12:08) 转载▼ 标签: delphi cxgrid筛选数据集 cxgrid过滤 分类: Delphi cxGri ...

  5. 润乾报表新功能–导出excel支持锁定表头

     在以往的报表设计中,锁定表头是会经常被用到的一个功能,这个功能不仅能使浏览的页面更加直观,信息对应的更加准确,而且也提高了报表的美观程度.但是,很多客户在将这样的报表导出excel时发现exce ...

  6. 个人永久性免费-Excel催化剂功能第79波-自动及手动备份功能,比Onedrive还好用

    在OFFICE365里,有个自动保存功能,可惜保存的地址是在Onedrive里,在中国国情下,备份十分卡顿,近乎难以忍受的慢.虽然现在收费性的网盘部分是可以有文件版本的备份功能,但也是繁琐且最要命的是 ...

  7. 个人永久性免费-Excel催化剂功能第31波-数量金额分组凑数功能,财务表哥表姐最爱

    在财务工作过程中,很大时候需要使用到凑数的需求,花了两三天时间认真研究了一下,本人水平也只能做代码搬运工,在用户体验上作了一下完善.完成了Excel版的凑数功能. 文章出处说明 原文在简书上发表,再同 ...

  8. 微软Power BI 每月功能更新系列——11月Power BI 新功能学习

    Power BI Desktop11月产品功能摘要 本月Power BI Desktop 有一个大规模的更新.现在,通常可以使用复合模型在一个模型中将直接查询和导入源组合在一起.UserVoice上的 ...

  9. 2019微软Power BI 每月功能更新系列——3月Power BI 新功能学习

    Power BI3月产品功能更新发布啦!本次新功能新增了热图和单选切片器:完善了新的DAX功能和对现有功能的改进(例如按钮和选择窗格):同时官方表示建模视图的全面改进也正在进行中~Woo~那么,本月更 ...

随机推荐

  1. BZOJ1178 APIO2009 会议中心 贪心、倍增

    传送门 只有第一问就比较水了 每一次贪心地选择当前可以选择的所有线段中右端点最短的,排序之后扫一遍即可. 考虑第二问.按照编号从小到大考虑每一条线段是否能够被加入.假设当前选了一个区间集合\(T\), ...

  2. 微软官方的Excel android 移动版的折腾

    微软官方的Excel android 移动版,有重大bug.害我折腾了一天多时间.最终确认是Excel自身的问题. 现象描述:手机上新建或是保存excel后.放到电脑上,不能打开.提示”Excel在B ...

  3. [Oracle]Oracle 各产品的 生命周期

    http://www.oracle.com/us/support/library/lifetime-support-technology-069183.pdf

  4. SPI内容随笔

    关于SPI的通信: SPI采用的是主从模式的同步通信,通过时钟来控制:一般情况下,使用双向全双工,收发的数据放在缓冲器FIFO中.数据的传输是主SPI的时钟在控制,从机是不能产生时钟的,如果没有时钟, ...

  5. 并行管理工具——pdsh

    1. pdsh安装2. pdsh常规使用2.1 pdsh2.2 pdcp 并行管理的方式有很多种: 命令行 一般是for循环 脚本 一般是expect+ssh等自编辑脚本 工具 pssh,pdsh,m ...

  6. python基础学习笔记(一)

    安装与运行交互式解释器 在绝大多数linux和 UNIX系统安装中(包括Mac OS X),Python的解释器就已经存在了.我们可以在提示符下输入python命令进行验证(作者环境ubuntu) f ...

  7. 对象&内置对象& 对象构造 &JSON&__proto__和prototype

    原型是一个对象,其他对象可以通过它实现属性继承 原型链:每个对象都会在其内部初始化一个属性,就是__proto__,当我们访问一个对象的属性 时,如果这个对象内部不存在这个属性,那么他就会去__pro ...

  8. "Linux内核分析"第六周实验报告

    张文俊 + 原创作品转载请注明出处 + <Linux内核分析>MOOC课程http://mooc.study.163.com/course/USTC-1000029000 1.进程的描述 ...

  9. 第七周 linux如何装载和启动一个可执行文件

    潘恒 原创作品转载请注明出处 <Linux内核分析>MOOC课程http://mooc.study.163.com/course/USTC-1000029000 一.实验内容 1.预处理. ...

  10. LINUX内核分析第七周学习总结

    LINUX内核分析第七周学习总结 标签(空格分隔): 20135328陈都 陈都 原创作品转载请注明出处 <Linux内核分析>MOOC课程 http://mooc.study.163.c ...