pandas中DataFrame和Series的数据去重

wqbin 2024-10-02 05:09:04 原文

在SQL语言中去重是一件相当简单的事情，面对一个表（也可以称之为DataFrame）我们对数据进行去重只需要GROUP BY 就好。

select custId,applyNo from tmp.online_service_startloan   group by custId,applyNo

1.DataFrame去重

但是对于pandas的DataFrame格式就比较麻烦，我看了其他博客优化了如下三种方案。

我们先引入数据集：

import pandas as pd

data=pd.read_csv(r'D:/home/nohup.out.20191028.startloan.csv',encoding='utf-8')

print(data.info())

共有14936条数据，那我们还是按 custId和applyNo去重。

1.使用list后手写去重

定义去重函数：我这里使用了遍历行，添加列表的的方式去重。

# 定义去重函数

def dropRep(df):

    list2=[]

    for _,i in df.iterrows():

        i=list(i)

        if i not in list2:

            list2.append(i)

    return list2

keydata=data[['custId','applyNo']]

len1=keydata.count()

print('去重之前custId +applyNo:',len1)

list2=dropRep(keydata)

print('去重之后custId +applyNo:',len(list2))

2.使用list后set去重

用set去重其实遇到了很多问题，set里面的数据必须是不可变数据类型，可hash等等。。所以只能把key1+key2拼成字符串作为一个元素。

# 定义去重函数

def dropRepBySet(df):

    set1=set()

    for _,i in df.iterrows():

        set1.add("_".join(list(map(lambda x:str(x),list(i)))))

    return list(set1)

而且明显感觉这个方法比上面手写list遍历去重快一些

keydata=data[['custId','applyNo']]

len1=keydata.count()

print('去重之前custId +applyNo:',len1)

list2=dropRepBySet(keydata)

print('去重之后custId +applyNo:',len(list2))

3.使用pd.DataFrame自带drop_duplicates（）函数去重

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

subset : column label or sequence of labels, optional

　　　　用来指定特定的列，默认所有列

keep : {‘first’, ‘last’, False}, default ‘first’

　　　　first删除重复项并保留第一次出现的项,last删除重复保留最后一条，False就是删除重复、只要不重复的数据

inplace : boolean, default False

　　　　是直接在原来数据上修改还是保留一个副本

keydata.drop_duplicates().count()

keydata.drop_duplicates(keep=False).count()

补充提取重复数据

# 剔除重复的数据

data1=keydata.drop_duplicates(keep=False)

data1.count()

#至少保留一条

data2=keydata.drop_duplicates(keep="first")

data2.count()

#这样正常的数据就重复了，重复的数据就只有一条

data1.append(data2).drop_duplicates(keep=False).count()

2.Series去重

我也是最近才遇到series去重这个场景，比较了一下两种去重的性能比较。

场景如下

sql==>pd.dataframe【数据量为8000rows】==>取出这个df的cust_id字段【series】==>转为list===>下一个sql：'''···where cust_id not in (%s)'''%".".join(list)

方法1：

方法2：seiries.drop_duplicates()

pandas中DataFrame和Series的数据去重的更多相关文章

Spark与Pandas中DataFrame对比
Pandas Spark 工作方式单机single machine tool,没有并行机制parallelism不支持Hadoop,处理大量数据有瓶颈分布式并行计算框架,内建并行机制paral ...
Spark与Pandas中DataFrame对比（详细）
Pandas Spark 工作方式单机single machine tool,没有并行机制parallelism不支持Hadoop,处理大量数据有瓶颈分布式并行计算框架,内建并行机制paral ...
Pandas中DataFrame修改列名
Pandas中DataFrame修改列名:使用 rename df = pd.read_csv('I:/Papers/consumer/codeandpaper/TmallData/result01- ...
pandas中DataFrame的ix，loc，iloc索引方式的异同
pandas中DataFrame的ix,loc,iloc索引方式的异同 1.loc: 按照标签索引,范围包括start和end 2.iloc: 在位置上进行索引,不包括end 3.ix: 先在inde ...
pandas中DataFrame重置设置索引
在pandas中,经常对数据进行处理而导致数据索引顺序混乱,从而影响数据读取.插入等. 小笔总结了以下几种重置索引的方法: import pandas as pd import numpy as n ...
pandas中DataFrame对象to_csv()方法中的encoding参数
当使用pd.read_csv()方法读取csv格式文件的时候,常常会因为csv文件中带有中文字符而产生字符编码错误,造成读取文件错误,在这个时候,我们可以尝试将pd.read_csv()函数的enco ...
Pandas中DataFrame数据合并、连接（concat、merge、join）之merge
二.merge:通过键拼接列类似于关系型数据库的连接方式,可以根据一个或多个键将不同的DatFrame连接起来. 该函数的典型应用场景是,针对同一个主键存在两张不同字段的表,根据主键整合到一张表里面 ...
Pandas中DataFrame数据合并、连接（concat、merge、join）之join
pandas.DataFrame.join 自己弄了很久,一看官网.感觉自己宛如智障.不要脸了,直接抄 DataFrame.join(other, on=None, how='left', lsuff ...
Pandas中DataFrame数据合并、连接（concat、merge、join）之concat
一.concat:沿着一条轴,将多个对象堆叠到一起 concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, key ...

随机推荐

【Cisco】实现同一个路由器一个端口用动态路由，另一个端口用静态路由
一.先构建以下网络图: 准备三台路由器,三台交换机,三台主机,连接所有设备并配置端口IP和网关,DCE端口的时钟频率都设置为64000.
（模板）poj2387（dijkstra+优先队列优化模板题）
题目链接:https://vjudge.net/problem/POJ-2387 题意:给n个点(<=1000),m条边(<=2000),求结点n到结点1的最短路. 思路:dijkstra ...
Spark Scala当中reduceByKey的用法
[学习笔记] /*reduceByKey(function)reduceByKey就是对元素为KV对的RDD中Key相同的元素的Value进行function的reduce操作(如前所述),因此,Ke ...
（十四）springMvc 对 restful 的支持
文章目录 restful 的概念配置支持 restful 的前端控制器配置不拦截静态资源 restful 的概念 restful 是一种开发理念: 对 url 进行规范每个 url 代表一个资源 ...
数据的特征预处理?(归一化)&(标准化)&(缺失值)
特征处理是什么: 通过特定的统计方法(数学方法)将数据转化成为算法要求的数据 sklearn特征处理API: sklearn.preprocessing 代码示例: 文末! 归一化: 公式: ...
华为精益敏捷专家：DevOps转型中的那些坑
陈军--原腾讯高级项目经理.华为精益敏捷专家 DevOps是现在非常流行的一个词,很多人都在提DevOps,在往那个方向去转,但转的时候坑特别多. 现实是很理想的,大家都觉得做了DevOps之后就会非 ...
luogu1156垃圾陷阱题解--背包DP
题目链接 https://www.luogu.org/problemnew/show/P1156 方法1 分析将已经爬的高度看作背包容积,最大剩余血量看作价值,\(f[i][j]\)表示吃完第\(i ...
caffe笔记
1. 训练 cifar10 示例 ① cd caffe.1.0.0 ./data/cifar10/get_cifar10.sh #获取图片 ② ./examples/cifar10/cre ...
for循环中的闭包
// 问题1:判断下面一段代码运行的结果是什么? var data = [] for (var i = 0; i < 3; i++) { data[i] = function() { conso ...
许愿墙JQ
<!doctype html> <html> <head> <meta charset="utf-8"> <t ...