drop_duplicates()函数
1dataframe删除某一列的重复元素,默认只留下第一次出现的
inplace参数设置为true时直接在原数据上修改,为False时,生成副本.
注意所有函数中inplace一旦设置为True,此时后面不能再跟任何函数,因为它整体已经是None.想要再跟函数只能再写一行.
且此时在前面也不能赋值,赋值也是None.因为设置为True时,整体是None,设置为False时,整体是一个引用,可以赋给其它变量.
a1 = pd.DataFrame({
'a': [1, 1, 3, 2,],
'b': [1, 1, 6, 4,],
'c': [1, 1, 3, 9,]
})
print(a1)
a1.drop_duplicates(inplace=True)
print(a1)
# 这里inplace为假,整体实际上是一个引用,所以可以直接输出.
print(a1.drop_duplicates(['a','b'], keep='first',inplace=False))
# 注意这里因为inplace为真,直接在原数据上修改,直接输出是空,因为它并不是一个引用,a1才是引用.
print(a1.drop_duplicates(['a','b'], keep='first',inplace=True))
# a b c
# 0 1 1 1
# 1 1 1 1
# 2 3 6 3
# 3 2 4 9
# a b c
# 0 1 1 1
# 2 3 6 3
# 3 2 4 9
# a b c
# 0 1 1 1
# 2 3 6 3
# 3 2 4 9
# None
https://blog.csdn.net/qq_28811329/article/details/79962511
参考: https://www.cnblogs.com/mahailuo/p/8317178.html
import pandas as pd
import numpy as np
import re df = pd.DataFrame({'a': [1,1,3,4,3],
'b': [1,1,3,4,3],
'c': [1,1,3,4,3]})
print('原始数据:\n',df)
print('去掉重复行后:\n', df.drop_duplicates())
drop_index = df.drop_duplicates().index.tolist()
print('去掉的重复行是:\n',df.drop(drop_index))
# 原始数据:
# a b c
# 0 1 1 1
# 1 1 1 1
# 2 3 3 3
# 3 4 4 4
# 4 3 3 3
# 去掉重复行后:
# a b c
# 0 1 1 1
# 2 3 3 3
# 3 4 4 4
# 去掉的重复行是:
# a b c
# 1 1 1 1
# 4 3 3 3
drop_duplicates()函数的更多相关文章
- Lesson11——Pandas去重函数:drop_duplicates()
pandas目录 "去重"通过字面意思不难理解,就是删除重复的数据.在一个数据集中,找出重复的数据删并将其删除,最终只保存一个唯一存在的数据项,这就是数据去重的整个过程.删除重复数 ...
- python中数据分析常用函数整理
一. apply函数 作用:对 DataFrame 的某行/列应用函数之后,Apply 返回一些值.函数既可以使用默认的,也可以自定义.注意:在第二个输出中应用 head() 函数,因为它包含了很多行 ...
- pandas drop_duplicates
函数 : DataFrame.drop_duplicates(subset=None, keep='first', inplace=False) 参数:这个drop_duplicate方法是对Data ...
- 从Excel到Python:最常用的36个Pandas函数
本文涉及pandas最常用的36个函数,通过这些函数介绍如何完成数据生成和导入.数据清洗.预处理,以及最常见的数据分类,数据筛选,分类汇总,透视等最常见的操作. 生成数据表 常见的生成数据表的方法有两 ...
- 关于Excel,你一定用的到的36个Python函数
从Excel到Python:最常用的36个Pandas函数关于Excel,你一定用的到的36个Python函数 本文涉及pandas最常用的36个函数,通过这些函数介绍如何完成数据生成和导入.数据清洗 ...
- pandas包 —— drop()、sort_values()、drop_duplicates()
一.drop() 函数 当你要删除某一行或者某一列时,用drop函数,它不改变原有的df中的数据,而是返回另一个dataframe来存放删除后的数据. 1.命令: df.drop() 删除行:df.d ...
- pandas函数高级
一.处理丢失数据 有两种丢失数据: None np.nan(NaN) 1. None None是Python自带的,其类型为python object.因此,None不能参与到任何计算中. #查看No ...
- 【转载】使用pandas进行数据清洗
使用pandas进行数据清洗 本文转载自:蓝鲸的网站分析笔记 原文链接:使用python进行数据清洗 目录: 数据表中的重复值 duplicated() drop_duplicated() 数据表中的 ...
- 第三节 pandas续集
import pandas as pd from pandas import Series from pandas import DataFrame import numpy as np 一 创建多层 ...
随机推荐
- Resharper 2019.1.1 破解
本文链接:https://blog.csdn.net/qq_21361809/article/details/92423949 Resharper ...
- IBM公司的面试题,看看你能做出多少。
进入IBM差不多是每一个IT人的梦想.IBM公司向来以高素质人才作为企业持续竞争力的保证,所以经常出一些千奇百怪的面试题,来考验一个人的综合能力,以下是5道IBM曾经出过的面试题,看看你能作出几道: ...
- html的图片移动(js)
<!DOCTYPE html><html><style> *{padding: 0;margin: 0} #open{ width: 300px; height: ...
- Codeforces 918 括号匹配 SGdp[i][j][k]
A B C #include <bits/stdc++.h> #define PI acos(-1.0) #define mem(a,b) memset((a),b,sizeof(a)) ...
- Manacher || P4555 [国家集训队]最长双回文串 || BZOJ 2565: 最长双回文串
题面:P4555 [国家集训队]最长双回文串 题解:就.就考察马拉车的理解 在原始马拉车的基础上多维护个P[i].Q[i]数组,分别表示以i结尾最长回文子串的长度和以i开头的最长回文子串的长度 然后就 ...
- Python核心技术与实战——六|异常处理
和其他语言一样,Python中的异常处理是很重要的机制和代码规范. 一.错误与异常 通常来说程序中的错误分为两种,一种是语法错误,另一种是异常.首先要了解错误和异常的区别和联系. 语法错误比较容易理解 ...
- VS2017报错:未提供初始值设定项
今天在使用VS2017写程序时,报错: 出错的代码如下: #include "pch.h" #include <iostream> #include <threa ...
- Bean的生命周期与JVM**
案例: 在service里定义了一个全局变量,这类变量只能是final的.如果不是,在代码中一旦有地方给该变量进行业务赋值.当不满足赋值条件时变量仍然保留上次的赋值的值. 这是因为Bean没有销毁. ...
- Django【第21篇】:Ajax之FormData
ajax补充--------FormData等... 一.回顾上节知识点 1.什么是json字符串? 轻量级的数据交换格式 2.定时器:关于setTimeout setTimeout(foo,3000 ...
- 快照方式备份MySQL数据库及举例
快照方式备份MySQL数据库及举例 作者: 红豆殺 日期: 2011 年 03 月 17 日发表评论7条评论查看评论 一.创建逻辑卷 依照如下连接的文档创建一个逻辑卷 http://www.178 ...