pandas-22 数据去重处理

数据去重可以使用duplicated()和drop_duplicates()两个方法。

DataFrame.duplicated（subset = None，keep =‘first’ ）返回boolean Series表示重复行

参数：

subset：列标签或标签序列，可选

仅考虑用于标识重复项的某些列，默认情况下使用所有列

keep：{‘first’，‘last’，False}，默认’first’

first：标记重复，True除了第一次出现。

last：标记重复，True除了最后一次出现。

错误：将所有重复项标记为True。

import numpy as np

import pandas as pd

from pandas import Series, DataFrame

df = pd.read_csv('./demo_duplicate.csv')

print(df)

print(df['Seqno'].unique()) # [0. 1.]

# 使用duplicated 查看 重复值

# 参数 keep 可以标记重复值 {'first'，'last'，False}

print(df['Seqno'].duplicated())

'''

0    False

1     True

2     True

3     True

4    False

Name: Seqno, dtype: bool

'''

# 删除 series 重复数据

print(df['Seqno'].drop_duplicates())

'''

0    0.0

4    1.0

Name: Seqno, dtype: float64

'''

# 删除 dataframe 重复数据

print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来 去重

'''

    Price  Seqno Symbol        time

0  1623.0    0.0   APPL  1473411962

4  1649.0    1.0   APPL  1473411963

'''

# drop_dujplicates() 第二个参数 keep 包含的值 有： first、last、False

print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个

'''

    Price  Seqno Symbol        time

3  1623.0    0.0   APPL  1473411963

4  1649.0    1.0   APPL  1473411963

'''

pandas-22 数据去重处理的更多相关文章

Pandas数据去重和对重复数据分类、求和，得到未重复和重复（求和后）的数据
人的理想志向往往和他的能力成正比. —— 约翰逊其实整个需求呢,就是题目.2018-08-16 需求的结构图: 涉及的包有:pandas.numpy 1.导入包: import pandas as ...
MYSQL数据去重与外表填充
经常要对数据库中的数据进行去重,有时还需要使用外部表填冲数据,本文档记录数据去重与外表填充数据. date:2016/8/17 author:wangxl 1 需求对user_info1表去重,并添 ...
python-数据描述与分析2（利用Pandas处理数据缺失值的处理数据库的使用）
2.利用Pandas处理数据2.1 汇总计算当我们知道如何加载数据后,接下来就是如何处理数据,虽然之前的赋值计算也是一种计算,但是如果Pandas的作用就停留在此,那我们也许只是看到了它的冰山一角,它 ...
利用Python进行数据分析(12) pandas基础: 数据合并
pandas 提供了三种主要方法可以对数据进行合并: pandas.merge()方法:数据库风格的合并: pandas.concat()方法:轴向连接,即沿着一条轴将多个对象堆叠到一起: 实例方法c ...
[Hadoop]-从数据去重认识MapReduce
这学期刚好开了一门大数据的课,就是完完全全简简单单的介绍的那种,然后就接触到这里面最被人熟知的Hadoop了.看了官网的教程[吐槽一下,果然英语还是很重要!],嗯啊,一知半解地搭建了本地和伪分布式的, ...
【转载】使用Pandas对数据进行筛选和排序
使用Pandas对数据进行筛选和排序本文转载自:蓝鲸的网站分析笔记原文链接:使用Pandas对数据进行筛选和排序目录: sort() 对单列数据进行排序对多列数据进行排序获取金额最小前10项 ...
【转载】使用Pandas进行数据提取
使用Pandas进行数据提取本文转载自:蓝鲸的网站分析笔记原文链接:使用python进行数据提取目录 set_index() ix 按行提取信息按列提取信息按行与列提取信息提取特定日期的信 ...
【转载】使用Pandas进行数据匹配
使用Pandas进行数据匹配本文转载自:蓝鲸的网站分析笔记原文链接:使用Pandas进行数据匹配目录 merge()介绍 inner模式匹配 lefg模式匹配 right模式匹配 outer模式 ...
【转载】使用Pandas创建数据透视表
使用Pandas创建数据透视表本文转载自:蓝鲸的网站分析笔记原文链接:使用Pandas创建数据透视表目录 pandas.pivot_table() 创建简单的数据透视表增加一个行维度(inde ...

随机推荐

201871010102-常龙龙《面向对象程序设计（java）》第二周学习总结
项目内容这个作业属于哪个课程 https://www.cnblogs.com/nwnu-daizh/ 这个作业的要求在哪里 https://www.cnblogs.com/nwnu-daizh/p ...
centos安装安全狗提示Need system command 'locate' to install safedog for linux的解决方法
今天为客户的centos服务器安装安全狗时提示Need system command 'locate' to install safedog for linux.Installation aborte ...
04-cmake语法-STREQUAL
STREQUAL 用于比较字符串,相同返回 true .
Kubernetes 资源对象
概述我将它们简单的分类为以下几种资源对象: 类别名称资源对象 Pod.ReplicaSet.ReplicationController.Deployment.StatefulSet.Daemon ...
python将数组写入文件
import numpy as npdata = np.array([[1,2], [3,4]]) np.savetxt('out.txt', data, fmt="%d") #保 ...
实现：笑脸_Crack
直接载入OD,观察发现弹窗可能为MessageBox,那么进行对windows api函数的搜索跟进反汇编窗口跟随函数,来到这里,直接进行断点操作运行程序,跑到断点处,如下图接着发现堆栈窗口有调 ...
ESA2GJK1DH1K升级篇: 升级STM32 预热: 单片机定时使用 http 获取云端文本文件里面的内容,然后显示在液晶屏
前言: 实现功能概要 STM32使用AT指令控制Wi-Fi以TCP方式连接咱上节安装的Web服务器,然后使用http的get协议获取云端文本文件里面的内容, 然后把获取的数据显示在OLED液晶屏. ...
css----单行文本超出部分显示省略号
width: 300px; overflow: hidden; white-space: nowrap; text-overflow: ellipsis;
python基础_格式化输出（%用法和format用法）(转载)
python基础_格式化输出(%用法和format用法) 目录 %用法 format用法 %用法 1.整数的输出 %o -- oct 八进制%d -- dec 十进制%x -- hex 十六进制 &g ...
POI开发：Java中的Excel相关操作
一.Apache POI 1.简介: Apache POI支持大多数中小规模的应用程序开发,提供API给Java程序对Microsoft Office格式档案读和写的功能,呈现和文本提取是它的主要特点 ...

pandas-22 数据去重处理

pandas-22 数据去重处理

pandas-22 数据去重处理的更多相关文章

随机推荐

热门专题