pandas dataframe重复数据查看.判断.去重

本文详解如何使用pandas查看dataframe的重复数据，判断是否重复，以及如何去重

dataframe数据样本：

import pandas as pd

df = pd.DataFrame({'name':['苹果','梨','草莓','苹果'], 'price':[7,8,9,8], 'cnt':[3,4,5,4]})

   name	cnt	price

0	苹果	 3	7

1	 梨	 4	 8

2	草莓	 5	9

3	苹果	 6	8

>> 查看dataframe的重复数据

a = df.groupby('price').count()>1

price = a[a['cnt'] == True].index

repeat_df = df[df['price'].isin(price)]

>>duplicated()方法判断

1. 判断dataframe数据某列是否重复

flag = df.price.duplicated()

0    False

1    False

2    False

3     True

Name: price, dtype: bool

flag.any()结果为True  (any等于对flag or判断)

flag.all()结果为False  (all等于对flag and判断)

2. 判断dataframe数据整行是否重复

flag = df.duplicated()

判断方法同1

3. 判断dataframe数据多列数据是否重复(多列组合查)

df.duplicated(subset = ['price','cnt'])

判断方法同1

>> drop_duplicats()方法去重

1. 对dataframe数据数据去重

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

示例：

df.drop_duplicats(subset = ['price','cnt'],keep='last',inplace=True)

drop_duplicats参数说明：

  参数subset

    subset用来指定特定的列，默认所有列

  参数keep

    keep可以为first和last，表示是选择最前一项还是最后一项保留，默认first

  参数inplace

    inplace是直接在原来数据上修改还是保留一个副本，默认为False

pandas dataframe重复数据查看.判断.去重的更多相关文章

用PyQt5来即时显示pandas Dataframe的数据，附qdarkstyle黑夜主题样式（美美哒的黑夜主题）
import sys from qdarkstyle import load_stylesheet_pyqt5 from PyQt5.QtWidgets import QApplication, QT ...
pandas.DataFrame——pd数据框的简单认识、存csv文件
接着前天的豆瓣书单信息爬取,这一篇文章看一下利用pandas完成对数据的存储. 回想一下我们当时在最后得到了六个列表:img_urls, titles, ratings, authors, detai ...
从mysql8.0读取数据并形成pandas dataframe类型数据，精确定位行列式中的元素，并读取
from pandas import * import pandas as pd from sqlalchemy import create_engine engine = create_engine ...
Distinct删除重复数据时自定义的方法比较【转】
最近项目中在用Linq Distinct想要将重复的资料去除时,发现它跟Any之类的方法有点不太一样,不能很直觉的在呼叫时直接带入重复数据判断的处理逻辑,所以当我们要用某个成员属性做重复数据的判断时, ...
Linq使用Distinct删除重复数据时如何指定所要依据的成员属性zz
最近项目中在用Linq Distinct想要将重复的资料去除时,发现它跟Any之类的方法有点不太一样,不能很直觉的在呼叫时直接带入重复数据判断的处理逻辑,所以当我们要用某个成员属性做重复数据的判断时, ...
pandas使用drop_duplicates去除DataFrame重复项
DataFrame中存在重复的行或者几行中某几列的值重复,这时候需要去掉重复行,示例如下: data.drop_duplicates(subset=['A','B'],keep='first',inp ...
pandas dataframe取差集：删掉已存在的数据，保留未插入的数据
适用场景: 插入数据到mysql中,中途中断,导致部分数据未插入成功.避免下次插入时插入了重复的数据. 思路: 1.读取已插入的数据, 2.读取全部数据(包含已插入和未插入的), 3.将已插入的数据添 ...
Python3 Pandas的DataFrame格式数据写入excle文件、json、html、剪贴板、数据库
Python3 Pandas的DataFrame格式数据写入excle文件.json.html.剪贴板.数据库一.DataFrame格式数据 Pandas是Python下一个开源数据分析的库,它提供 ...
Pandas DataFrame数据的增、删、改、查
Pandas DataFrame数据的增.删.改.查 https://blog.csdn.net/zhangchuang601/article/details/79583551 #删除列 df_2 = ...

随机推荐

dubbo集成zookeeper rpc远程调用
注:下面使用dubbo依赖的是zookeeper注册中心,这里没有详细的介绍.在配置之前,请自行准备好zookeeper环境. 后续如果写zookeeper的配置会补放链接添加Gradle依赖 co ...
spring-boot-plus是易于使用，快速，高效，功能丰富，开源的spring boot 脚手架.
Everyone can develop projects independently, quickly and efficiently! spring-boot-plus是一套集成spring bo ...
设计模式C++描述----15.策略(Strategy)模式
一. 举例说明以前做了一个程序,程序的功能是评价几种加密算法时间,程序的使用操作不怎么变,变的是选用各种算法. 结构如下: Algorithm:抽象类,提供算法的公共接口. RSA_Algorith ...
Java HashSet对txt文本内容去重（统计小说用过的字或字数）
Java HashSet对txt文本内容去重(统计小说用过的字或字数) 基本思路: 1.字节流读需要去重的txt文本.(展示demo为当前workspace下名为utf-8.txt的文本) 2.对读取 ...
QHDYZ模拟赛20191012
今天信息处老师(并不是教练,基本等于机房看门大爷) (好吧老师其实很犇,软件什么的厉害的一批,只是不能带oi--) 跟我说:"xxj,过两天月考完了,可以在初赛前再整一次模拟赛,一天,三道题 ...
学习笔记57_WCF基础
参考书籍<WCF揭秘> 参考博客园“xfrog” 1.做一个接口,例如: 2.使用一个类,例如:FirstSrvice这个类,来实现这个接口. 3.建立WCF的宿主程序: 4.配 ...
[考试反思]1013csp-s模拟测试72：距离
最近总是这个样子. 看上去排名好像还可以,但是实际上离上面的分差往往能到80分,但是身后的分差其实只有10/20分. 比上不足,比下也不怎么的. 所以虽然看起来没有出rank10,但是在总分排行榜上却 ...
elasticsearch操作命令
总结几个es的curl操作命令: 查询某条数据:curl -XGET http://elasticsearch:9200/company/company/123?pretty 查询索引下数据总量:cu ...
.Net Core Vue Qucik Start
.Net Core Vue Qucik Start This is a ASP.NET Core 3.0 project seamlessly integrationed with Vue.js te ...
缓存管理之MemoryCache与Redis的使用
一..MemoryCache介绍 MemoryCache是.Net Framework 4.0开始提供的内存缓存类,使用该类型可以方便的在程序内部缓存数据并对于数据的有效性进行方便的管理, 它通过在内 ...

pandas dataframe重复数据查看.判断.去重

>> 查看dataframe的重复数据

>>duplicated()方法判断

>> drop_duplicats()方法去重

pandas dataframe重复数据查看.判断.去重的更多相关文章

随机推荐

热门专题