dataframe按值（非索引）查找多行

很多情况下，我们会根据一个dataframe里面的值来查找而不是根据索引来查找。

首先我们创建一个dataframe：

>>> col = ["id","name","sex","age"]

>>> name = {1:"chen",2:"wang",3:"hu",4:"lee",5:"liu"}

>>> id = range(1,6)

>>> sex = {1:1,2:0,3:1,4:1,5:0}

>>> age = {1:20,2:18,3:21,4:20,5:18}

>>> data = {"id":id,"name":name,"sex":sex,"age":age}

>>> data

{'sex': {1: 1, 2: 0, 3: 1, 4: 1, 5: 0}, 'age': {1: 20, 2: 18, 3: 21, 4: 20, 5: 18}, 'name': {1: 'chen', 2: 'wang', 3: 'hu', 4: 'lee', 5: 'liu'}, 'id': range(1, 6)}

>>> df = pd.DataFrame(data,columns=col,index=id)

>>> df

   id  name  sex  age

1   1  chen    1   20

2   2  wang    0   18

3   3    hu    1   21

4   4   lee    1   20

5   5   liu    0   18

>>> df = df.set_index("id")

>>> df.set_index("id")

    name  sex  age

id

1   chen    1   20

2   wang    0   18

3     hu    1   21

4    lee    1   20

5    liu    0   18

如果我们要选年龄大于等于20岁的，这个好办：

>>> df[df["age"]>=20]

    name  sex  age

id

1   chen    1   20

3     hu    1   21

4    lee    1   20

或者选出所有女生（sex=0的），也好办：

>>> df[df["sex"]==0]

    name  sex  age

id

2   wang    0   18

5    liu    0   18

也可用where，但不太方便：（一般不会这样用）

>>> df.where(df["sex"]==0)

    name  sex   age

id

1    NaN  NaN   NaN

2   wang  0.0  18.0

3    NaN  NaN   NaN

4    NaN  NaN   NaN

5    liu  0.0  18.0

>>> df.where(df["age"]>=20)

    name  sex   age

id

1   chen  1.0  20.0

2    NaN  NaN   NaN

3     hu  1.0  21.0

4    lee  1.0  20.0

5    NaN  NaN   NaN

但是如果要按名字来选出，就不能这样了，得用.isin()方法。

>>> select_name = ["chen","lee","liu"]

>>> df[df["name"]==select_name]

Traceback (most recent call last):

  File "<stdin>", line 1, in <module>

  File "E:\Python3\lib\site-packages\pandas\core\ops.py", line 855, in wrapper

    res = na_op(values, other)

  File "E:\Python3\lib\site-packages\pandas\core\ops.py", line 759, in na_op

    result = _comp_method_OBJECT_ARRAY(op, x, y)

  File "E:\Python3\lib\site-packages\pandas\core\ops.py", line 737, in _comp_method_OBJECT_ARRAY

    result = lib.vec_compare(x, y, op)

  File "pandas\lib.pyx", line 868, in pandas.lib.vec_compare (pandas\lib.c:15418)

ValueError: Arrays were different lengths: 5 vs 3

# 可以看到匹配会出错

>>> df[df["name"].isin(select_name)]

    name  sex  age

id

1   chen    1   20

4    lee    1   20

5    liu    0   18

如果要选出既是属于名字里的又是男生(sex=1)：

>>> df[df["name"].isin(select_name) & df["sex"]==1]

    name  sex  age

id

1   chen    1   20

4    lee    1   20

这里如果用

>>> df.isin({"name":select_name,"sex":[1]})

     name    sex    age

id

1    True   True  False

2   False  False  False

3   False   True  False

4    True   True  False

5    True  False  False

>>> df[df.isin({"name":select_name,"sex":[1]})] # 这里得是[1],非1

    name  sex  age

id

1   chen  1.0  NaN

2    NaN  NaN  NaN

3    NaN  1.0  NaN

4    lee  1.0  NaN

5    liu  NaN  NaN

好像并不好。

dataframe按值（非索引）查找多行的更多相关文章

linux shell脚本查找重复行/查找非重复行/去除重复行/重复行统计
转自:http://blog.sina.com.cn/s/blog_6797a6700101pdm7.html 去除重复行 sort file |uniq 查找非重复行 sort file |uniq ...
Pandas 如何通过获取双(多)重索引获取指定行DataFrame数据
图片看不清楚的话,可以右键选择:“在新标签页中打开图片(I)” 参数 df.loc[(a,b),c]中第一个参数元组为索引内容,a为level0索引对应的内容,b为level1索引对应的内容因为df ...
Oracle中NULL值与索引
NULL值是关系数据库系统布尔型(true,false,unknown)中比较特殊类型的一种值,通常称为UNKNOWN或空值,即是未知的,不确定的.由于NULL存在着无数的可能,因此NULL值也不等于 ...
pandas 对数据帧DataFrame中数据的索引及切片操作
1.创建数据帧 index是行索引,即每一行的名字:columns是列索引,即每一列的名字.建立数据帧时行索引和列索引都需要以列表的形式传入. import pandas as pd df = pd. ...
非索引列上的统计 <第二篇>
非索引列上的统计有时候,可能在连接或过滤条件中的列上没有索引.即使对这种非索引列,如果查询优化器知道这些列的数据分布(统计),它也很可能做出最佳的选择. 除了索引上的统计,SQL Server可以在 ...
第十二章——SQLServer统计信息（2）——非索引键上统计信息的影响
原文:第十二章--SQLServer统计信息(2)--非索引键上统计信息的影响前言: 索引对性能方面总是扮演着一个重要的角色,实际上,查询优化器首先检查谓词上的统计信息,然后才决定用什么索引.一般情 ...
在DataFrame数据表里面提取需要的行
在DataFrame数据表里面提取需要的行代码功能: 在DataFrame表格中使用loc(),得到我们想要的行,然后根据某一列元素的值进行排序此代码中还展示了为DataFrame添加列,即直接n ...
找出numpy array数组的最值及其索引
在list列表中,max(list)可以得到list的最大值,list.index(max(list))可以得到最大值对应的索引但在numpy中的array没有index方法,取而代之的是where ...
3.MySQL优化---单表查询优化的一些小总结(非索引设计)
整理自互联网.摘要: 接下来这篇是查询优化.其实,大家都知道,查询部分是远远大于增删改的,所以查询优化会花更多篇幅去讲解.本篇会先讲单表查询优化(非索引设计).然后讲多表查询优化.索引优化设计以及库表 ...
Sublime文本排序&查找重复行&删除重复行
排序按F9或者选择菜单:Edit > Sort Lines,对每行文本进行排序查找重复行排序好后,按Ctrl+F,调出查找面板查找字符串: ^(.+)$[\r\n](^\1$[\r\n] ...

随机推荐

Error: member names cannot be the same as their enclosing type
在编译的时候会遇到如下问题:member names cannot be the same as their enclosing type 原因:方法名和类名不能一样,如果一样就是一个构造函数.而构造 ...
MySQL中数据中设计中的范式与反范式
设计关系数据库时,遵从不同的规范要求,设计出合理的关系型数据库,这些不同的规范要求被称为不同的范式,各种范式呈递次规范,越高的范式数据库冗余越小.但是有些时候一昧的追求范式减少冗余,反而会降低数据读写 ...
while循环。for循环
1.while循环基本循环格式 while 条件 : # 循环体 # 如果条件为真,那么循环体则执行 # 如果条件为假,那么循环体不执行 break:退出本层循环. continue:退出本次循环, ...
MySQL 第三天
回顾字段类型(列类型): 数值型, 时间日期型和字符串类型数值型: 整型和小数型(浮点型和定点型) 时间日期型: datetime, date,time,timestamp, ye ...
设计线程安全的类 VS 发布线程安全的对象
一.设计线程安全的类步骤: 找出构成对象状态的所有变量找出约束状态变量的不变性条件建立对象状态的并发访问策略 1.在现有的线程安全类中添加功能 (1)重用能减低工作量和提高正确性 (2)如果底层 ...
004-ibus输入法，快捷键，浏览器
一.输入法用 root 身份在终端下,运行下面命令: yum install ibus-pinyin ibus ibus-gtk ibus-qt 使用im-chooser命令,选择ibus为默认输入 ...
动态生成ABAP程序-资料
参考程序: Tcode ABAPdocu--> BC - ABAP Programming--> The ABAP Programming Language--> Special T ...
剑指offer 面试10题
面试10题: 题目:大家都知道斐波那契数列,现在要求输入一个整数n,请你输出斐波那契数列的第n项.n<=39 n=0时,f(n)=0 n=1时,f(n)=1 n>1时,f(n)=f(n-1 ...
Windows.old
如果通过执行自定义安装来安装 Windows 7,而没有在安装过程中格式化分区,则以前版本的 Windows中使用的文件存储在 Windows.old文件夹中.此文件夹中文件的类型取决于您的电脑.使用 ...
python常用模块-1
一.认识模块 1.什么是模块:一个模块就是一个包含了python定义和声明的文件,文件名就是加上.py的后缀,但其实import加载的模块分为四个通用类别 : 1.使用python编写的代码(.py文 ...

dataframe按值（非索引）查找多行

dataframe按值（非索引）查找多行的更多相关文章

随机推荐

热门专题