Pandas DataFrame 数据选取和过滤

This would allow chaining operations like:

pd.read_csv('imdb.txt')

  .sort(columns='year')

  .filter(lambda x: x['year']>1990)   # <---this is missing in Pandas

  .to_csv('filtered.csv')

For current alternatives see:

http://stackoverflow.com/questions/11869910/pandas-filter-rows-of-dataframe-with-operator-chaining

可以这样：

df = pd.read_csv('imdb.txt').sort(columns='year')

df[df['year']>1990].to_csv('filtered.csv')

# however, could potentially do something like this:

pd.read_csv('imdb.txt')

  .sort(columns='year')

  .[lambda x: x['year']>1990]

  .to_csv('filtered.csv')

or

pd.read_csv('imdb.txt')

  .sort(columns='year')

  .loc[lambda x: x['year']>1990]

  .to_csv('filtered.csv')

from:https://yangjin795.github.io/pandas_df_selection.html

Pandas 是 Python Data Analysis Library, 是基于 numpy 库的一个为了数据分析而设计的一个 Python 库。它提供了很多工具和方法，使得使用 python 操作大量的数据变得高效而方便。

本文专门介绍 Pandas 中对 DataFrame 的一些对数据进行过滤、选取的方法和工具。首先，本文所用的原始数据如下：

df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))

    Out[9]:

                     A         B         C         D

    2017-04-01  0.522241  0.495106 -0.268194 -0.035003

    2017-04-02  2.104572 -0.977768 -0.139632 -0.735926

    2017-04-03  0.480507  1.215048  1.313314 -0.072320

    2017-04-04  1.700309  0.287588 -0.012103  0.525291

    2017-04-05  0.526615 -0.417645  0.405853 -0.835213

    2017-04-06  1.143858 -0.326720  1.425379  0.531037

选取

通过 [] 来选取

选取一列或者几列：

df['A']

Out:

    2017-04-01    0.522241

    2017-04-02    2.104572

    2017-04-03    0.480507

    2017-04-04    1.700309

    2017-04-05    0.526615

    2017-04-06    1.143858

df[['A','B']]

Out:

                       A         B

    2017-04-01  0.522241  0.495106

    2017-04-02  2.104572 -0.977768

    2017-04-03  0.480507  1.215048

    2017-04-04  1.700309  0.287588

    2017-04-05  0.526615 -0.417645

    2017-04-06  1.143858 -0.326720

选取某一行或者几行：

df['2017-04-01':'2017-04-01']

Out:

                       A         B         C         D

    2017-04-01  0.522241  0.495106 -0.268194 -0.03500

df['2017-04-01':'2017-04-03']

                       A         B         C         D

    2017-04-01  0.522241  0.495106 -0.268194 -0.035003

    2017-04-02  2.104572 -0.977768 -0.139632 -0.735926

    2017-04-03  0.480507  1.215048  1.313314 -0.072320

loc, 通过行标签选取数据

df.loc['2017-04-01','A']

df.loc['2017-04-01']

Out:

    A    0.522241

    B    0.495106

    C   -0.268194

    D   -0.035003

df.loc['2017-04-01':'2017-04-03']

Out:

                       A         B         C         D

    2017-04-01  0.522241  0.495106 -0.268194 -0.035003

    2017-04-02  2.104572 -0.977768 -0.139632 -0.735926

    2017-04-03  0.480507  1.215048  1.313314 -0.072320

df.loc['2017-04-01':'2017-04-04',['A','B']]

Out:

                       A         B

    2017-04-01  0.522241  0.495106

    2017-04-02  2.104572 -0.977768

    2017-04-03  0.480507  1.215048

    2017-04-04  1.700309  0.287588

df.loc[:,['A','B']]

Out:

                       A         B

    2017-04-01  0.522241  0.495106

    2017-04-02  2.104572 -0.977768

    2017-04-03  0.480507  1.215048

    2017-04-04  1.700309  0.287588

    2017-04-05  0.526615 -0.417645

    2017-04-06  1.143858 -0.326720

iloc, 通过行号获取数据

df.iloc[2]

Out:

    A    0.480507

    B    1.215048

    C    1.313314

    D   -0.072320

df.iloc[1:3]

Out:

                       A         B         C         D

    2017-04-02  2.104572 -0.977768 -0.139632 -0.735926

    2017-04-03  0.480507  1.215048  1.313314 -0.072320

df.iloc[1,1]

df.iloc[1:3,1]

df.iloc[1:3,1:2]

df.iloc[[1,3],[2,3]]

Out:

                       C         D

    2017-04-02 -0.139632 -0.735926

    2017-04-04 -0.012103  0.525291

df.iloc[[1,3],:]

df.iloc[:,[2,3]]

iat, 获取某一个 cell 的值

df.iat[1,2]

Out:

    -0.13963224781812655

过滤

使用 [] 过滤

[]中是一个boolean 表达式，凡是计算为 True 的行就会被选取。

df[df.A>1]

Out:

                       A         B         C         D

    2017-04-02  2.104572 -0.977768 -0.139632 -0.735926

    2017-04-04  1.700309  0.287588 -0.012103  0.525291

    2017-04-06  1.143858 -0.326720  1.425379  0.531037

df[df>1]

Out:

                       A         B         C   D

    2017-04-01       NaN       NaN       NaN NaN

    2017-04-02  2.104572       NaN       NaN NaN

    2017-04-03       NaN  1.215048  1.313314 NaN

    2017-04-04  1.700309       NaN       NaN NaN

    2017-04-05       NaN       NaN       NaN NaN

    2017-04-06  1.143858       NaN  1.425379 NaN

df[df.A+df.B>1.5]

Out:

                       A         B         C         D

    2017-04-03  0.480507  1.215048  1.313314 -0.072320

    2017-04-04  1.700309  0.287588 -0.012103  0.525291

下面是一个更加复杂的例子，选取的是 index 在 '2017-04-01'中'2017-04-04'的，一行的数据的和大于1的行：

df.loc['2017-04-01':'2017-04-04',df.sum()>1]

还可以通过和 apply 方法结合，构造更加复杂的过滤，实现将某个返回值为 boolean 的方法作为过滤条件：

df[df.apply(lambda x: x['b'] > x['c'], axis=1)]

使用 isin

df['E']=['one', 'one','two','three','four','three']

                       A         B         C         D      E

    2017-04-01  0.522241  0.495106 -0.268194 -0.035003    one

    2017-04-02  2.104572 -0.977768 -0.139632 -0.735926    one

    2017-04-03  0.480507  1.215048  1.313314 -0.072320    two

    2017-04-04  1.700309  0.287588 -0.012103  0.525291  three

    2017-04-05  0.526615 -0.417645  0.405853 -0.835213   four

    2017-04-06  1.143858 -0.326720  1.425379  0.531037  three

df[df.E.isin(['one'])]

    Out:

                       A         B         C         D    E

    2017-04-01  0.522241  0.495106 -0.268194 -0.035003  one

    2017-04-02  2.104572 -0.977768 -0.139632 -0.735926  one

Pandas DataFrame 数据选取和过滤的更多相关文章

Pandas DataFrame数据的增、删、改、查
Pandas DataFrame数据的增.删.改.查 https://blog.csdn.net/zhangchuang601/article/details/79583551 #删除列 df_2 = ...
pandas 索引、选取和过滤
Series索引的工作方式类似于NumPy数组的索引,不过Series的索引值不只是整数,如: import numpy as np import pandas as pd from pandas i ...
Pandas dataframe数据写入文件和数据库
转自:http://www.dcharm.com/?p=584 Pandas是Python下一个开源数据分析的库,它提供的数据结构DataFrame极大的简化了数据分析过程中一些繁琐操作,DataFr ...
Pandas:DataFrame数据选择方法（索引）
#首先创建我们的Series对象,然后合并到dataframe对象里面去 import pandas as pd import numpy as np area=pd.Series({,,,}) po ...
pandas DataFrame数据转为list
dfpath=df[df['mm'].str.contains('20180122\d')].values dfplist=np.array(dfpath).tolist()
python数据分析之pandas数据选取：df[] df.loc[] df.iloc[] df.ix[] df.at[] df.iat[]
1 引言 Pandas是作为Python数据分析著名的工具包,提供了多种数据选取的方法,方便实用.本文主要介绍Pandas的几种数据选取的方法. Pandas中,数据主要保存为Dataframe和Se ...
Python3 Pandas的DataFrame数据的增、删、改、查
Python3 Pandas的DataFrame数据的增.删.改.查一.DataFrame数据准备增.删.改.查的方法有很多很多种,这里只展示出常用的几种. 参数inplace默认为False,只 ...
pandas.DataFrame——pd数据框的简单认识、存csv文件
接着前天的豆瓣书单信息爬取,这一篇文章看一下利用pandas完成对数据的存储. 回想一下我们当时在最后得到了六个列表:img_urls, titles, ratings, authors, detai ...
pandas dataframe重复数据查看.判断.去重
本文详解如何使用pandas查看dataframe的重复数据,判断是否重复,以及如何去重 dataframe数据样本: import pandas as pd df = pd.DataFrame({' ...

随机推荐

scrapy运行方式
1,在cmd 命令行下执行 scrapy crawl demo (爬虫主逻辑的 name= 'demo '的名字) 2, 也可以在spider目录下添加一个py文件,加入以下代码 from scra ...
RabbitMQ-C 客户端接口使用说明
rabbitmq-c是一个用于C语言的,与AMQP server进行交互的client库.AMQP协议为版本0-9-1.rabbitmq-c与server进行交互前需要首先进行login操作,在操作后 ...
使用openssl生成SSL证书完全参考手册
一般来说,配置HTTPS/SSL的步骤为: 1.生成足够强度的私钥.需要考虑:算法,广泛采用的一般是RSA.键长度,RSA默认为512,一般应选择2048.密码,虽然私钥不一定要加密存储,但是加密存储 ...
20145302张薇《网络对抗技术》 web基础
20145302张薇 <网络对抗> web基础实验问题回答 1.什么是表单表单在网页中主要负责数据采集功能:一般网页上需要用户输入.选择的地方都会用到表单表单标签:即,用于确定表单所 ...
20145327 《网络对抗》逆向及BOF基础实践
20145327 <网络对抗>逆向及BOF基础实践实践目标本次实践的对象是一个名为pwn1的linux可执行文件. 该程序正常执行流程是:main调用foo函数,foo函数会简单回显任 ...
C++写入mbr
#include <windows.h> #include <winioctl.h> unsigned char scode[] = "\xb8\x12\x00\xc ...
Tempter of the Bone（dfs+奇偶剪枝）题解
Tempter of the Bone Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Othe ...
【第六章】 springboot + 事务
在实际开发中,其实很少会用到事务,一般情况下事务用的比较多的是在金钱计算方面. mybatis与spring集成后,其事务该怎么做?其实很简单,直接在上一节代码的基础上在相应的方法(通常是servic ...
论文笔记：Mastering the game of Go with deep neural networks and tree search
Mastering the game of Go with deep neural networks and tree search Nature 2015 这是本人论文笔记系列第二篇 Nature ...
Java东西太多，记录一些知识点
实习两个月了,这两个月接触了不少东西,简单列举一下知识,未来需要多多学习和了解. 1.前端js.extjs4.Jquery(js框架这些基本现学现用): 2.基础不好要补补Servlet和JSP(再往 ...