0x00 问题

假如，在有两个大文件分别存储了大量的数据，数据其实很简单就是一堆字符串，每行存储一条，如何快速筛选出两个文件的异同之处么，或者如何筛选出两个文件中不同的元素呢？

刚开始我是通过最简单的方法，利用for循环去一个个的判断，时间复杂度为m的n次幂，当然当文件数量级为十万或者百万时，速率简直慢到了极点。

0x01 解决方法

利用set()的different(方法)可快速比较，两个set集合的不同之处，也就是对集合进行数学运算

假设:数据1拥有858882条记录，数据2有360029条记录，快速挑选出数据2中而不存在与数据1中的数据

方法：先将两个文件中的数据读入两个list：data1和data2，然后通过：set(data2).difference(set(data1))，获取data2与data1的差集

下面为一个小的demo，可以看到近百万级的数据，比较出差集也就需要1秒左右，效率不是一般的高

import time

t1 = time.time()

data1 = []

for i in open("inDB.txt","r",encoding="utf-8"):

    i = i.strip("\n")

    i = i.lower()

    data1.append(i)

data2 = []

for i in open("data/18年.filename","r",encoding="utf-8"):

    i = i.strip("\n")

    i = i.lower()

    data2.append(i)

newdata = set(data2).difference(set(data1))

t2 = time.time()

print(f"data1 length:\t{len(data1)}")

print(f"data2 length:\t{len(data2)}")

print(f"newdata length:\t{len(newdata)}")

print(f"time use:\t{round(t2 - t1,3)}s")

0x02 list最多可以存放多少条数据呢？

python中list最多可以存放多少条数据呢？

对于这个问题，有个网友调研了python的文档，结果跟计算机的性能相关

64位机器：2^63-1=9223372036854775807
32位机器：2^31-1=2147483647
import sys
print(sys.maxsize)
print(pow(2,63)-1)
9223372036854775807
9223372036854775807
参考：https://blog.csdn.net/TracelessLe/article/details/107281279

0x03 集合set的操作

内置函数	作用
add()	为集合添加元素
clear()	移除集合中的所有元素
copy()	拷贝一个集合
difference()	返回多个集合的差集
difference_update()	移除集合中的元素，该元素在指定的集合也存在。
discard()	删除集合中指定的元素
intersection()	返回集合的交集
intersection_update()	返回集合的交集。
isdisjoint()	判断两个集合是否包含相同的元素，如果没有返回 True，否则返回 False。
issubset()	判断指定集合是否为该方法参数集合的子集。
issuperset()	判断该方法的参数集合是否为指定集合的子集
pop()	随机移除元素
remove()	移除指定元素
symmetric_difference()	返回两个集合中不重复的元素集合。
symmetric_difference_update()	移除当前集合中在另外一个指定集合相同的元素，并将另外一个指定集合中不同的元素插入到当前集合中。
union()	返回两个集合的并集
update()	给集合添加元素

python 快速比较大文件的元素异同之处的更多相关文章

Python逐块读取大文件行数的代码 - 为程序员服务
Python逐块读取大文件行数的代码 - 为程序员服务 python数文件行数最简单的方法是使用enumerate方法,但是如果文件很大的话,这个方法就有点慢了,我们可以逐块的读取文件的内容,然后按块 ...
使用dd命令快速生成大文件或者小文件的方法
使用dd命令快速生成大文件或者小文件的方法转载请说明出处:http://blog.csdn.net/cywosp/article/details/9674757 在程序的测试中有些场 ...
Java快速读取大文件
Java快速读取大文件最近公司服务器监控系统需要做一个东西来分析Java应用程序的日志. 第一步探索: 首先我想到的是使用RandomAccessFile,因为他可以很方便的去获取和设置文件指针,下 ...
C++快速读取大文件
debug的时候需要等很长时间读模型,查资料发现了两种快速读取大文件的方法. test 1:每次读一个字符串 test 2.3一次读取整个文件 {//test 1 string buf; clock_ ...
PHP几个快速读取大文件例子
PHP几个快速读取大文件例子感谢把我给崩了的投递时间:2014-10-16 来源:三联在PHP中,对于文件的读取时,最快捷的方式莫过于使用一些诸如file.file_get_contents ...
使用dd命令快速生成大文件或者小文件
使用dd命令快速生成大文件或者小文件需求场景: 在程序的测试中有些场景需要大量的小文件或者几个比较大的文件,而在我们的文件系统里一时无法找到那么多或者那么大的文件,此时linux的dd命令就能快速的 ...
python 小程序大文件的拆分合并
1. 将大文件拆分为小文件 I 通过二进制的方式将大文件读取出来,将其拆分存,以不同的文件方式存放在一个目录下面 II 提供两种操作方式交互式和命令行模式 #! usr/bin/python # -* ...
python处理分隔大文件
4个.sql格式的文件,2G大小,直接插入mysql数据中,文件太大了,导入不进去. 太大的文件用python处理也很麻烦,处理不了,只能先分隔成小文件处理. 文件中数据格式:其中values里面的数 ...
python里如何计算大文件的md5
在python3中,有了一个hashlib,可以用来计算md5,这里先给出一个简单的例子: import hashlib sstr="i love hanyu" print(has ...
Python花式读取大文件(10g/50g/1t)遇到的性能问题（面试向）
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_97 最近无论是面试还是笔试,有一个高频问题始终阴魂不散,那就是给一个大文件,至少超过10g,在内存有限的情况下(低于2g),该以什 ...

随机推荐

ChatGPT学习之旅 (10) 系统全球化小助手
大家好,我是Edison. 上一篇我们写了一个运维小助手的prompt,它帮我们写一些我们开发者不太愿意做的一些运维小任务.这一篇,给大家分享下我在日常的系统开发中遇到的多语言/全球化的任务中是如何通 ...
【YashanDB知识库】YMP元数据阶段二报错YAS-04204
[问题分类]YMP迁移 [关键字]YMP迁移,YAS-04204 [问题描述]数据库采用最小规格部署,机器配置2C8G,使用YMP进行数据和对象迁移,在元数据阶段二创建索引时报错:YAS-04204 ...
物体检测序列之一:NMS
IoU (Intersection over Union),交并比,是衡量物体检测模型在特定数据集上检测效果好坏的一个常用的标准,通常情况下,想要通过IoU来衡量物体检测模型好坏需要具备以下几点: 1 ...
【论文解读】transformer小目标检测综述
一.简要介绍 Transformer在计算机视觉领域迅速普及,特别是在目标识别和检测领域.在检查最先进的目标检测方法的结果时,我们注意到,在几乎每个视频或图像数据集中,transforme ...
【解题报告】P8478 「GLR-R3」清明
P8478 「GLR-R3」清明参考了出题人题解和 xcyyyyyy 大神的题解,强推前两篇. 拿到题完全没思路怎么办??? 人类智慧的巅峰,思维量的登峰造极. 换句话说就是非人题目,不过不得不说 ...
CSS & JS Effect – 脉冲 Pulse Play Button
效果参考 Youtube – Create a pulsing animation with CSS 重点在背后做一个一样大的 div border 然后 animation scale up. ...
opencascade源码学习之HLRAlgo包 -HLRAlgo
类 HLRAlgo 前言在给定的投影中,为了达到工业设计.图纸需要的精度,可以删除隐藏的线条.为此,隐藏线路移除组件提供两个算法: HLRBRep_Algo和HLRBRep_PolyAlgo. 这 ...
【QT界面美化】QT界面美化效果截图QSS+QML
贴几个QT做的界面美化效果截图. 先来一张动图,有一些画面是QT Widgets + QSS实现的:另外一些画面是QT QML实现的. QT界面美化效果图QT QSS QML 补天云QT技术培训专家 ...
智慧矿山IT智能运维自动化解决方案
矿山企业是国民经济中的重要组成部分,其资源开发和产业链条中涉及的环节与过程非常繁琐和复杂.随着我国矿山企业规模逐年扩大,为了提高其生产效率和降低其生产成本,信息化.数字化建设成为当下矿山企业发展的重要 ...
SMMU中stage1 和stage2 的意思
ARM SMMU(System Memory Management Unit)是一种用于ARM架构的内存管理单元,它支持两阶段的地址转换机制,即Stage 1和Stage 2.这种机制允许操作系统和虚 ...