pandas 筛选

t={

    "age": [, , np.nan, , np.nan, ],

    "city": ["BeiJing", "ShangHai", "GuangZhou", "ShenZhen", 'BeiJing', "ShangHai"],

    "sex": [None, "male", "female", "male", np.nan, "unknown"],

    "birth": ["2000-02-10", "1988-10-17", None, "1978-08-08", np.nan, "1988-10-17"],

    "score":[,,,,,],

    "naem":['sdf','aa','bb','tt','ere','tt'],

    "name":['sdf 11','aa 22','bb 33','tt 44','ere 55','tt 66']

}

df =DataFrame(t)

index = pd.Index(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"], name="name")

data = {

    "age": [, , np.nan, , np.nan, ],

    "city": ["Bei Jing ", "Shang Hai ", "Guang Zhou", "Shen Zhen", np.nan, " "],

    "income": [None, , ,, np.nan, ],

    "sex": [None, "male", "female", "male", np.nan, "unknown"],

    "birth": ["2000-02-10", "1988-10-17", None, "1978-08-08", np.nan, "1988-10-17"]

}

df = pd.DataFrame(data=data, index=index)

print(df.get('age1')  ) #使用get，没有此列也不会报错

print(df.get('age').get()) # 索引到具体的单元格
print(df['age'][1]) #索引到具体的单元格

print(df[::]) #每两行筛选 一次数据

print(df[::-]) #行逆序

print(df['age'])  #筛选单列

print(df[['age','sex']]) #筛选多列

print(df.iloc[]) #筛选第一行

print(df.iloc[, ]) #筛选出单元格 第二行第一列的数据

print(df.iloc[[, , ], ]) # 筛选出多行一列 第二行、第一行、第三行对应的第一列的数据

print(df.iloc[:, :]) #切片，多行多列

print(df.loc["Tom": "Mary"]) #多行

print(df.loc[:, "age": "birth"]) # 多列

# loc与iloc的区别： 通过名称来筛选时，传入的切片是左右都包含的

print(df[~(df.sex == 'unknown')]) #取反

print(df.loc[df.age > , ["age"]]) # 通过loc进行逻辑筛选

print(df[df.sex.isin(["male", "female"])]) # 对几个常量进行筛选

print(df[df.index.isin(["Bob"])]) # 索引也可以用 isin

print(df[lambda x: x["age"] > ]) #通过函数进行筛选，必须是带有一个参数

print(df.loc[lambda x: x.age > , lambda x: ["age"]])

# ============

user_info=df

grouped  = user_info.groupby(["sex", "age"]) # user_info.groupby(["sex", "age"], sort=False) groupby 会在操作过程中对数据进行排序。如果为了更好的性能，可以设置 sort=False

print(grouped.groups)

for name, group in grouped:  # 遍历分组，如果是根据多个字段来分组的，每个组的名称是一个元组

    print("name: {}".format(name))

    print("group: {}".format(group))

user_info.groupby(["sex", "age"]).get_group(("male", )) # 选择一个分组用 get_group

rs=grouped["age"].agg(np.max) # 对分组后的某一列进行统计

# 如果是根据多个键来进行聚合，默认情况下得到的结果是一个多层索引结构。可以设置参数 as_index=False 避免多层索引

# 对已经有多层索引的对象可以通过reset_index ，去掉多层索引  rs.reset_index()

grouped["income"].agg([np.sum, np.mean]).rename(columns={"sum": "income_sum", "mean": "income_mean"}) #一次进行多个聚合操作，并重命名统计结果

grouped.agg({"age": np.mean, "income": np.sum}) # 不同列进行不同的聚合操作

# 使用apply，通过带参数的函数对列进行处理

def f1(ser, num=):

    return ser.nlargest(num).tolist()  #

print(grouped["income"].apply(f1))

# 前面进行聚合运算的时候，得到的结果是一个以分组名作为索引的结果对象。虽然可以指定 as_index=False ,但是得到的索引也并不是元数据的索引。

# 如果我们想使用原数组的索引的话，可以使用transform

grouped = user_info.groupby("sex")

print(grouped["income"].transform(np.mean))

print(user_info.to_json()) #将dataframe转成json字符串

data1 = {

    "name": ["Tom", "Bob"],

    "age": [, ],

    "city": ["Bei Jing ", "Shang Hai "]

}

df1 = pd.DataFrame(data=data1)

data2 = {

    "name": ["Mary", "James"],

    "age": [, ],

    "city": ["Guang Zhou", "Shen Zhen"]

}

df2 = pd.DataFrame(data=data2)

# append和concat实现的功能差不多

print(df1.append(df2,ignore_index=True)) #ignore_index=True 是为了重新生成索引

print(pd.concat([df1,df2],ignore_index=True))

data2 = {"name": ["Bob", "Mary", "James", "Andy"],

        "sex": ["male", "female", "male", np.nan],

         "income": [, , , ]

}

df2 = pd.DataFrame(data=data2)

#join和merge功能差不多

print(pd.merge(df1, df2, on="name", how="outer")) #outer inner left right

print(df1.join(df2.set_index("name"),on="name",how='outer'))

# 两个 DataFrame 中需要关联的键的名称不一样，可以通过 left_on 和 right_on 来分别设置  pd.merge(df1, df2, left_on="name1", right_on="name2")

# 两个DataFrame中都包含相同名称的字段时，可以设置参数 suffixes，默认 suffixes=('_x', '_y') 表示将相同名称的左边的DataFrame的字段名加上后缀 _x，右边加上后缀 _y

pandas 筛选的更多相关文章

【跟着stackoverflow学Pandas】Select rows from a DataFrame based on values in a column -pandas 筛选
最近做一个系列博客,跟着stackoverflow学Pandas. 以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序: https://stack ...
【452】pandas筛选出表中满足另一个表所有条件的数据
参考:pandas筛选出表中满足另一个表所有条件的数据参考:pandas:匹配两个dataframe 使用 pd.merge 来实现 on 表示查询的 columns,如果都有 id,那么这是很好的 ...
pandas 筛选指定行或者列的数据
pandas主要的两个数据结构是:series(相当于一行或一列数据结构和DataFrame(相当于多行多列的一个表格数据机构). 原文:https://www.cnblogs.com/gangand ...
Pandas 筛选操作
# 导入相关库 import numpy as np import pandas as pd 在数据处理过程中,经常会遇到要筛选不同要求的数据.通过 Pandas 可以轻松时间,这一篇我们来看下如何使 ...
使用pandas筛选出指定列值所对应的行
在pandas中怎么样实现类似mysql查找语句的功能: select * from table where column_name = some_value; pandas中获取数据的有以下几种方法 ...
pandas筛选数据。
https://jingyan.baidu.com/article/0eb457e508b6d303f0a90572.html 假如我们想要筛选D列数据中大于0的行:df[df['D']>0] ...
pandas筛选0,3,6开头的行
http://stackoverflow.com/questions/15325182/how-to-filter-rows-in-pandas-by-regex dbstk.loc[dbstk.ST ...
pandas 筛选某一列最大值最小值 sort_values、groupby、max、min
高效方法: dfs[dfs['delta'].isnull()==False].sort_values(by='delta', ascending=True).groupby('Call_Number ...
pandas的筛选功能，跟excel的筛选功能类似，但是功能更强大。
Select rows from a DataFrame based on values in a column -pandas 筛选 https://stackoverflow.com/questi ...

随机推荐

Python Tkinter的学习
Tkinter模块("Tk 接口")是Python的标准Tk GUI工具包的接口.Tk和Tkinter可以在大多数的Unix平台下使用,同样可以应用在Windows和Macinto ...
【LOJ523】[LibreOJ β Round #3]绯色 IOI（悬念）（霍尔定理_基环树）
题目 LOJ523 官方题解分析由于某些原因,以下用「左侧点」和「右侧点」分别代替题目中的「妹子」和「男生」. 根据题意,显然能得出一个左侧点只能向一个或两个右侧点连边.这似乎启发我们把左侧点不看 ...
Ubuntu 固定自己的IP
使用以下命令 sudo vi /etc/network/interfaces 以下方文件内容进行覆盖 # interfaces(5) file used by ifup(8) and ifdown( ...
mongodb常规操作语句
db.c_user.insertOne({ name: "ljm", pwd: "123456" }); //插入一个 db.c_user.insertMany ...
.Net Core WebApi(3)—NLog
在.Net Core中,微软提供的内置的日志组件没有实现将日志记录到文件.数据库上.这里使用NLog替代内置的日志组件 1.在项目中引入NuGet包 NLog NLog.Web.A ...
百度搜索常用api
http://www.baidu.com/s?wd=关键字 wd(Keyword):查询的关键词:http://www.baidu.com/s?wd=关键字&cl=3 cl(Class):搜索 ...
执行kubectl create-f replicaset.yaml后k8s是如何工作的
参考:提高 kubectl 使用生产力[译] 英文原文:https://learnk8s.io/blog/kubectl-productivity/ Kubernetes 架构 Kubernetes ...
Angular中ViewChild\ngAfterViewInit\Promise的使用，在父组件初始化时等待子组件的返回值
1.子component中的异步方法 initCreateJob = () => new Promise((resolve, reject) => { setTimeout(() => ...
Java自学-数组排序
Java 数组选择法,冒泡法排序步骤 1 : 选择法排序选择法排序的思路: 把第一位和其他所有的进行比较,只要比第一位小的,就换到第一个位置来比较完后,第一位就是最小的然后再从第二位和剩余的其 ...
nginx+rsync实现本地yum源以及公网yum源
1.配置nginx的autoindex模块,开启目录浏览功能 2.使用rsync同步公网源上的软件包,至本地目录中 3.配置客户端指向即可 1.nginx提供目录浏览功能 [root@xuliangw ...

pandas 筛选

pandas 筛选的更多相关文章

随机推荐

热门专题