Pandas常用操作

1. 使用 `drop_duplicates` 去重

1.1 初始化数据

df = pd.DataFrame({'stu_name': ['Tom', 'Tony', 'Jack', 'Jack', np.nan], 'stu_age': [16, 16, 15, np.nan, 21]})

  stu_name  stu_age

0    Nancy     17.0

1     Tony     16.0

2     Tony     16.0

3     Jack     21.0

4     Jack      NaN

1.2 对一列去重

df_clean = df.drop_duplicates(subset=['stu_name'])

print(df)

  stu_name  stu_age

0    Nancy     17.0

1     Tony     16.0

3     Jack     21.0

1.3 对多列去重（多列同时满足重复）

df_clean2 = df.drop_duplicates(subset=['stu_name', 'stu_age'])

print(df_clean2)

  stu_name  stu_age

0    Nancy     17.0

1     Tony     16.0

3     Jack     21.0

4     Jack      NaN

2. 使用 `duplicated` 配合 `drop` 去重

2.1 初始化数据

df = pd.DataFrame({'stu_name': ['Tom', 'Tony', 'Jack', 'Jack', np.nan], 'stu_age': [16, 16, 15, np.nan, 21]})

  stu_name  stu_age

0    Nancy     17.0

1     Tony     16.0

2     Tony     16.0

3     Jack     21.0

4     Jack      NaN

2.2 对一列去重

duplicate_df = df[df.duplicated('stu_name')]

clean_df = df.drop(duplicate_df.index)

使用 duplicated 先筛选出重复的行
使用 drop 删除掉重复行

3. `drop_duplicates` 与 `duplicated` 常用参数含义

subset: 单个列名或者一组列名数组（可选）。如果不设置该参数，则默认对全部列进行去重

keep: 保留的列

'first': 只保留第一个，其他重复项被删除（默认）
'last': 只保留最后一个，其他重复项被删除
False: 出现重复项则都被删除

Pandas常用操作 - 去重的更多相关文章

pandas常用操作详解——pandas的去重操作df.duplicated()与df.drop_duplicates()
df.duplicated() 参数详解: subset:检测重复的数据范围.默认为数据集的所有列,可指定特定数据列: keep: 标记哪个重复数据,默认为'first'.1.'first':标记重复 ...
3-10 Pandas 常用操作
1.构造数据 In [1]: import pandas as pd data=pd.DataFrame({'group':['a','a','a','b','b','b','c','c','c' ...
pandas常用操作详解(复制别人的)——数据透视表操作：pivot_table()
原文链接:https://www.cnblogs.com/Yanjy-OnlyOne/p/11195621.html 一文看懂pandas的透视表pivot_table 一.概述 1.1 什么是透视表 ...
数据分析处理库Pandas——常用操作
DataFrame结构排序备注:group列降序,data列升序. 合并相同项查找相同项添加一列,值是其他列的值进行相关操作后的值删除列 Series结构替换值一组值按照范围归类归类后每类 ...
Pandas常用操作 - 删除指定行/指定列
1. 删除指定行 new_df = df.drop(index='行索引') new_df = df.drop('行索引', axis='index') new_df = df.drop('行索引', ...
pandas常用操作详解——pd.concat()
concat函数基本介绍: 功能:基于同一轴将多个数据集合并 pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=Fa ...
pandas常用操作
删除某列: concatdfs.drop('Unnamed: 0',axis=1) 打印所有列名: .columns
Pandas常用操作 - 新增数据列
初始化测试数据 df = pd.DataFrame({'stu_name': ['Nancy', 'Tony', 'Tim', 'Jack', 'Lucy'], 'stu_age': [17, 16, ...
pandas常用操作详解——.loc与.iloc函数的使用及区别
loc与iloc功能介绍:数据切片.通过索引来提取数据集中相应的行数据or列数据(可以是多行or多列) 总结: 不同:1. loc函数通过调用index名称的具体值来取数据2. iloc函数通过行序号 ...

随机推荐

go语言生成markdown文档工具
虽然有go语言的swagger,但是go版本的swagger对代码的侵入比较大,因此抽空实现了基于GO语言生成markdown文档的工具开源链接地址: https://github.com/w3li ...
html基础表单标签 input系列以及优化方法
场景:在网页中显示手机用户信息的表单效果. 如:登录页.注册页标签名:input 用法是通过改变type属性值,来展示不同效果 1.1 html 代码 <!--placeholder 提示符又叫 ...
python appium自动化报“Encountered internal error running command: UnknownError: An unknown server-side error occurred while processing the command. Original error: Could not proxy command to remote server
运行app自动化代码时报"Encountered internal error running command: UnknownError: An unknown server-side e ...
Centos下查看cpu核数
1.概念物理CPU:实际Server中插槽上的CPU个数.物理cpu数量:可以数不重复的 physical id 有几个. 2.逻辑CPULinux用户对 /proc/cpuinfo 这个文件肯定不陌 ...
Struts2的jsonp接口实例
和以往写struts2程序一样,action方法跳转到一个JSP中,为了配合jsonp的跨域,要在JSP中做一个输出 JSP: <%@ page language="java" ...
图片上传，直接在网页中显示(支持IE，谷歌，火狐浏览器)
<!doctype html><html lang="en"> <head> <meta charset="UTF-8" ...
mongodb基础整理篇————常规操作[二]
前言简单整理一下常规操作. 正文虽然一般说写代码看的是思想,但是呢,如果不知道mongodb 有哪些常用的操作,那么你怎么能知道mongodb是否符合你的需求,比如说如果聚合功能都没有,你得自己写 ...
Java 异常分析
Java 异常分析本文是对以下内容的分析: Java异常设计 Java 异常分类 Java异常可以告诉什么问题 Java异常处理最佳实践 Java Exception 是为了处理应用程序的异常行为而 ...
[爱偷懒的程序员系列]-Section 1. “懒”是一切需求的根源
一直认为"懒"推进了科技的发展,因为"懒"而促生了各种各样的需求.科技的进步加速了各种信息的交互频率,站在台面上说是因为业务需要提高效率,成本需要降低,服务需要 ...
JUC并发编程与高性能内存队列disruptor实战-上
JUC并发实战 Synchonized与Lock 区别 Synchronized是Java的关键字,由JVM层面实现的,Lock是一个接口,有实现类,由JDK实现. Synchronized无法获取锁 ...

Pandas常用操作 - 去重

1. 使用 drop_duplicates 去重

1.1 初始化数据

1.2 对一列去重

1.3 对多列去重（多列同时满足重复）

2. 使用 duplicated 配合 drop 去重

2.1 初始化数据

2.2 对一列去重

3. drop_duplicates 与 duplicated 常用参数含义

Pandas常用操作 - 去重的更多相关文章

随机推荐

热门专题

1. 使用 `drop_duplicates` 去重

2. 使用 `duplicated` 配合 `drop` 去重

3. `drop_duplicates` 与 `duplicated` 常用参数含义