“去重”通过字面意思不难理解，就是删除重复的数据。在一个数据集中，找出重复的数据删并将其删除，最终只保存一个唯一存在的数据项，这就是数据去重的整个过程。删除重复数据是数据分析中经常会遇到的一个问题。通过数据去重，不仅可以节省内存空间，提高写入性能，还可以提升数据集的精确度，使得数据集不受重复数据的影响。

　　Panda DataFrame 对象提供了一个数据去重的函数 drop_duplicates()，本节对该函数的用法做详细介绍。

函数格式

　　drop_duplicates() 函数的语法格式如下：

　　df.drop_duplicates(subset=['A','B','C'],keep='first',inplace=True)

　　参数说明如下：

subset：表示要进去重的列名，默认为 None。
keep：有三个可选参数，分别是 first、last、False，默认为 first，表示只保留第一次出现的重复项，删除其余重复项，last 表示只保留最后一次出现的重复项，False 则表示删除所有重复项。
inplace：布尔值参数，默认为 False 表示删除重复项后返回一个副本，若为 Ture 则表示直接在原数据上删除重复项。

实际应用

　　首先创建一个包含有重复值的 DataFrame 对象，如下所示：

Example：创建数据

data = {

    'A':[1,0,1,1],

    'B':[0,2,5,0],

    'C':[4,0,4,4],

    'D':[1,0,1,1]

}

df = pd.DataFrame(data=data)

print(df)

"""

   A  B  C  D

0  1  0  4  1

1  0  2  0  0

2  1  5  4  1

3  1  0  4  1

"""

Example：默认保留第一次出现的重复项

print(df.drop_duplicates()) #默认保留第一次出现的重复项

"""

   A  B  C  D

0  1  0  4  1

1  0  2  0  0

2  1  5  4  1

"""

Example： keep=False 删除所有重复项

print(df.drop_duplicates(keep=False)) #keep=False删除所有重复项

"""

   A  B  C  D

1  0  2  0  0

2  1  5  4  1

"""

Example：去除所有重复项，对于 B 列来说两个 0 是重复项

print(df.drop_duplicates(subset=['B'],keep=False))#去除所有重复项，对于B列来说两个0是重复项

"""

   A  B  C  D

1  0  2  0  0

2  1  5  4  1

"""

　　从上述示例可以看出，删除重复项后，行标签使用的数字是原来的，并没有从 0 重新开始，那么我们应该怎么从 0 重置索引呢？Pandas 提供的 reset_index() 函数会直接使用重置后的索引。如下所示：

Example：

data={

    'A':[1,3,3,3],

    'B':[0,1,2,0],

    'C':[4,5,4,4],

    'D':[3,3,3,3]

}

df=pd.DataFrame(data=data)

#去除所有重复项，对于B来说两个0是重复项

df=df.drop_duplicates(subset=['B'],keep=False)

print(df)

print('-------------')

#重置索引，从0重新开始

print(df.reset_index(drop=True))

"""

   A  B  C  D

1  3  1  5  3

2  3  2  4  3

-------------

   A  B  C  D

0  3  1  5  3

1  3  2  4  3

"""

Example：指定多列同时去重

　　创建一个 DataFrame 对象，如下所示：

df = pd.DataFrame({'Country ID':[1,1,2,12,34,23,45,34,23,12,2,3,4,1],

                    'Age':[12,12,15,18, 19, 25, 21, 25, 25, 18, 25,12,32,18],

                   'Group ID':['a','z','c','a','b','s','d','a','b','s','a','d','a','f']})

print(df)

"""

    Country ID  Age Group ID

0            1   12        a

1            1   12        z

2            2   15        c

3           12   18        a

4           34   19        b

5           23   25        s

6           45   21        d

7           34   25        a

8           23   25        b

9           12   18        s

10           2   25        a

11           3   12        d

12           4   32        a

13           1   18        f

"""

#last只保留最后一个重复项

print(df.drop_duplicates(['Age','Country ID'],keep='last'))

"""

    Country ID  Age Group ID

1            1   12        z

2            2   15        c

4           34   19        b

6           45   21        d

7           34   25        a

8           23   25        b

9           12   18        s

10           2   25        a

11           3   12        d

12           4   32        a

13           1   18        f

"""

Lesson11——Pandas去重函数：drop_duplicates()的更多相关文章

【转载】pandas常用函数
原文链接:https://www.cnblogs.com/rexyan/p/7975707.html 一.import语句 import pandas as pd import numpy as np ...
pandas 常用函数整理
pandas常用函数整理,作为个人笔记. 仅标记函数大概用途做索引用,具体使用方式请参照pandas官方技术文档. 约定 from pandas import Series, DataFrame im ...
unique() 去重函数
unique()函数是一个去重函数,STL中unique的函数 unique的功能是去除相邻的重复元素(只保留一个), 还有一个容易忽视的特性是它并不真正把重复的元素删除.他是c++中的函数, 所以头 ...
Pandas的函数应用、层级索引、统计计算
1.Pandas的函数应用 1.apply 和 applymap 1. 可直接使用NumPy的函数示例代码: # Numpy ufunc 函数 df = pd.DataFrame(np.random ...
pandas常用函数之shift
shift函数是对数据进行移动的操作,假如现在有一个DataFrame数据df,如下所示: index value1 A 0 B 1 C 2 D 3 那么如果执行以下代码: df.shift() 就会 ...
pandas常用函数之diff
diff函数是用来将数据进行某种移动之后与原数据进行比较得出的差异数据,举个例子,现在有一个DataFrame类型的数据df,如下: index value1 A 0 B 1 C 2 D 3 如果执行 ...
西安电子科技大学第16届程序设计竞赛 F Operating System （unique() 去重函数）
链接:https://www.nowcoder.com/acm/contest/107/F来源:牛客网 Operating System 时间限制:C/C++ 1秒,其他语言2秒空间限制:C/C++ ...
unique（去重函数）
去重排序(unique函数的使用) 2013年05月30日 11:05:45 阅读数:9689更多个人分类: 字符串处理出处:http://www.cnblogs.com/QQbai/archi ...
python pandas字符串函数详解（转）
pandas字符串函数详解(转)——原文连接见文章末尾在使用pandas框架的DataFrame的过程中,如果需要处理一些字符串的特性,例如判断某列是否包含一些关键字,某列的字符长度是否小于3等等 ...

随机推荐

你不得不了解的Python3.x新特性
从 3.0 到 3.8,Python 3 已经更新了一波又一波,但似乎我们用起来和 2.7 没有太大区别?以前该怎么写 2.7 的代码现在就怎么写,只不过少数表达方式变了而已.在这篇文章中,作者介绍了 ...
synchronized锁升级详细过程
java对象头由3部分组成: 1.Mark Word 2.指向类对象(对象的class对象)的指针 3.数组长度(数组类型才有) 重点是 Mark Word结构,下面以32位HotSpot为例: 一. ...
vue3知识点的自我总结
1. 我们对ref的错误理解 ref 经常去监听基本数据类型. 同时也可以去监听[数组][对象]都是可以的. ref是深度的监听.并不是大家说的那样不能去监听复杂的数据类型. 只是根据我们推荐ref去 ...
day7 对字母数字的编排
1.函数fun()的功能:在s数组内寻找并且统计t数组在s数组中出现的次数输入字符串:函数scanf()函数不好用,会出现很多bug,因此不使用scanf() 效果理想: 2.函数fun()功能:将 ...
Matlab R2019b安装中的问题
1.licens文件以及dll文件的放置 MATLAB的安装镜像文件放置在D:\MATLAB,我们MATLAB安装在D:\MATLAB2019B,在激活过程中,我们需要破解文件夹中的license_s ...
manjaro20安装teamviewer出现sudo teamviewer –daemon start无响应
问题 https://www.randomhacks.co.uk/the-teamviewer-daemon-is-not-running-please-start-the-daemon-ubuntu ...
第01讲：Flink 的应用场景和架构模型
你好,欢迎来到第 01 课时,本课时我们主要介绍 Flink 的应用场景和架构模型. 实时计算最好的时代在过去的十年里,面向数据时代的实时计算技术接踵而至.从我们最初认识的 Storm,再到 Spa ...
谷歌浏览器和火狐浏览器如何查看HTTP协议
谷歌浏览器和火狐浏览器如何查看HTTP协议谷歌浏览器查看HTTP协议火狐浏览器查看HTTP协议
总是记不住但又总是要用的css
有没有经常遇到一些样式每次写都要用百度呢?我收集了一些我平时经常要用到的但又总是记不住的样式.有错误的地方欢迎指正.转载请注明出处. 一.设置input 的placeholder的字体样式 input ...
linux中yum本地私有仓库安装搭建《全面解析》
目录一:yum本地仓库安装 1.yum简介 2.yum安装解析二:yum安装的生命周期三:yum私有仓库作用与必要性四:搭建yum私有仓库本地版本 1.下载必须的软件包 2.创建软件仓库(就 ...

Lesson11——Pandas去重函数：drop_duplicates()

函数格式

实际应用

Lesson11——Pandas去重函数：drop_duplicates()的更多相关文章

随机推荐

热门专题