这是一些代码记录

  • 这次是帮朋友恢复硬盘,扫描到的结果包含了好多个分区,通过将分区中的数据导出发现很多文件是重复的。所以想到通过python代码去重。
  • 首先把所有分区的图片文件都放到一个文件夹A中,如果命名有冲突,对于win10可以选"让我决定每个文件"然后把两个对勾都打上,这样对于重复的文件win10会给加上(1)这样的后缀(所以去重是把文件名比较长的移除)。通过下面的去重代码就能轻易移除掉重复的文件。
  • 因为朋友的硬盘上放了很多新的图片,所以通过第二个代码把A文件夹中存在于硬盘中的文件移除。
  • 然后,写完第二个代码之后想到了更好的思路以及进度条的实现,所以又写了一个验证的代码。

去重

通过获取md5去重,保留文件名比较短的版本(主要是去除命名中最后的(1)这样的标记) 为了保险起见 只是把重复的文件移动走了 而不是删除,代码出现错误也不至于有什么损失。强烈建议这么做

import os
import hashlib
import shutil hash_dict = {} def get_md5(file_name):
with open(file_name, "rb") as f:
r = f.read()
m = hashlib.md5()
m.update(r)
return m.hexdigest() A_file_list = os.listdir("A") t_num = len(A_file_list)
print ("总文件数: " + str(t_num));
cnt = 0
for file in A_file_list:
md5_str = get_md5('A/'+file)
if md5_str in hash_dict: # 重复文件
print (f"重复: {hash_dict[md5_str]} | {file}");
if len(file) < len(hash_dict[md5_str]):
shutil.move('A/' + hash_dict[md5_str], 'B/' + hash_dict[md5_str])
# os.remove('A/' + hash_dict[md5_str])
hash_dict[md5_str] = file
else:
shutil.move('A/' + file, 'B/' + file)
# os.remove('A/' + file)
else:
hash_dict[md5_str] = file
cnt += 1
print (f"{str(cnt)}/{str(t_num)}") print ("done.")

递归查找文件比对筛选

通过上一步去重,下面的代码先对A文件夹中的文件都取md5,然后遍历F盘的文件,并且计算md5,如果有相同的,那么移动到B文件夹。

import os
import hashlib
import shutil hash_dict = {}
f_file_cnt = 0 def get_md5(file_name):
with open(file_name, "rb") as f:
r = f.read()
m = hashlib.md5()
m.update(r)
return m.hexdigest() def fun(path):
global f_file_cnt
try:
os.chdir(path)
except:
return
file_list = os.listdir()
for file in file_list:
if os.path.isdir(file):
fun(file)
elif os.path.isfile(file):
if os.path.getsize(file) > 73056832:
continue
md5_str = get_md5(file)
# with open("D://F.md5", 'a') as f:
# f.write(md5_str+"\n")
if md5_str in hash_dict:
try:
shutil.move("D://恢复/A/"+hash_dict[md5_str], "D://恢复/B/"+hash_dict[md5_str])
print ("D://恢复/A/"+hash_dict[md5_str])
except Exception as e:
print(e)
f_file_cnt += 1
if (f_file_cnt % 50) == 0:
print(f"{(f_file_cnt/25524)*100}% - {md5_str}") os.chdir("..") A_file_list = os.listdir("A") t_num = len(A_file_list) print ("总文件数: " + str(t_num)); cnt = 0 #读取A文件夹的md5 与F盘现有文件对比 结果作为依据删除掉A文件夹的文件
print("载入A文件夹md5")
for file in A_file_list:
md5_str = get_md5('A/'+file)
hash_dict[md5_str] = file
cnt += 1
if (cnt % 50) == 0:
print (f"{(cnt/t_num)*100}%")
print("A文件夹md5读取完毕\n开始遍历F盘") fun("F:/") print (f_file_cnt)
print ("done.")

最终检查

通过修改上面代码(参考注释的代码),可以先遍历一遍F盘的文件,得到文件的md5列表,然后再和A文件夹里面的文件按照下面的代码比对,能节省很多时间。原因是因为移动硬盘速度太慢了,我要是早点这么干,早就筛选出必要的文件了。。。

import os
import hashlib
import shutil
from tqdm import tqdm f_hash_list = [] def get_md5(file_name):
with open(file_name, "rb") as f:
r = f.read()
m = hashlib.md5()
m.update(r)
return m.hexdigest() with open("D://F.md5") as f:
f_hash_list = f.readlines() file_list = os.listdir("B") pbar = tqdm(total=len(file_list)) for file in file_list:
md5_str = get_md5("B/"+file)
if md5_str+"\n" in f_hash_list:
try:
shutil.move("B/"+file, "C/"+file)
except Exception as e:
print (e)
pbar.update(1) pbar.close()
print("done.")

这里也用到了tqdm库来实现进度条的效果,感觉效果很好,只是这样的话,就不能随意输出东西了。否则会出现多个进度条,这个目前我不知道怎么解决问题,但是考虑到控制台输出东西会严重拖慢程序的运行速度,不输出也没什么关系。

[Python] 通过md5去重 筛选文件代码的更多相关文章

  1. [转] 三种Python下载url并保存文件的代码

    原文 三种Python下载url并保存文件的代码 利用程序自己编写下载文件挺有意思的. Python中最流行的方法就是通过Http利用urllib或者urllib2模块. 当然你也可以利用ftplib ...

  2. 通过MD5排除重复文件

    今天下载了好多美女图片壁纸,可是看了一下发现好多图片重复了,有强迫症的我必须把重复的都给剔除掉,首先想到的当然是百度了,问问度娘有没有什么图片去重的工具,搜了一下还真有.奈何本人智商捉急用不来这高级的 ...

  3. Python实现删除目录下相同文件

    让我们来分析一下这个问题:首先,文件个数非常多,手工查找是不现实的,再说,单凭我们肉眼,在几千张图片或文件里面找到完全相同的难度也是很大的.所以要用程序实现.那么用程序怎么实现呢?根据什么判断两个文件 ...

  4. python解析VOC的xml文件并转成自己需要的txt格式

    在进行神经网络训练的时候,自己标注的数据集往往会有数据量不够大以及代表性不强等问题,因此我们会采用开源数据集作为训练,开源数据集往往具有特定的格式,如果我们想将开源数据集为我们所用的话,就需要对其格式 ...

  5. python中OS模块操作文件和目录

    在python中执行和操作目录和文件的操作是通过内置的python OS模块封装的函数实现的. 首先导入模块,并查看操作系统的类型: >>> import os os.name # ...

  6. hashlib —— Python 的 md5 和 sha1 加密

    python的md5和sha1加密 0. md5 与 sha1 MD5 的全称是 Message-Digest Algorithm 5(信息-摘要算法).128 位长度.目前 MD5 是一种不可逆算法 ...

  7. 记录我的 python 学习历程-Day06 is id == / 代码块 / 集合 / 深浅拷贝

    一.is == id 用法 在Python中,id是内存地址, 你只要创建一个数据(对象)那么就会在内存中开辟一个空间,将这个数据临时加载到内存中,这个空间有一个唯一标识,就好比是身份证号,标识这个空 ...

  8. 办公室文员必备python神器,将PDF文件表格转换成excel表格!

    [阅读全文] 第三方库说明 # PDF读取第三方库 import pdfplumber # DataFrame 数据结果处理 import pandas as pd 初始化DataFrame数据对象 ...

  9. (Python )格式化输出、文件操作、json

    本节学习Python的格式化输出,文件操作以及json的简单用法 1.格式化输出 将非字符串类型转换成字符串,可以使用函数:str() 或者repr() ,(这两个函数的区别目前我还没搞懂,求解答) ...

  10. lib/sqlalchemy/cextension/processors.c:10:20: 致命错误: Python.h:没有那个文件或目录

    本文地址:http://www.cnblogs.com/yhLinux/p/4063444.html $ sudo easy_install sqlalchemy [sudo] password fo ...

随机推荐

  1. css3文字阴影和盒子阴影

    文字阴影 文字阴影的语法格式: text-shadow:水平向右的偏移值 向下的偏移值 迷糊度 阴影的颜色,水平向右的偏移值 向下的偏移值 迷糊度 阴影的颜色; 可以有多个阴影,但是在实际的项目中最多 ...

  2. 最好的个人博客评论区实现方案推荐:waline

    我的博客一直没有一个好看的评论区,自己做又不会..没错,我是个前端渣渣.调研了一下,一开始想套用一些网上的静态模板,但是改造成本还是挺大的,后来接触到了Waline,简单了解了以下,我就知道了,它就是 ...

  3. 【题解】P5461 赦免战俘

    一.题目 现有 \(2^n\times2^n\ (n≤10)\) 名作弊者站成一个正方形方阵等候 kkksc03 的发落.kkksc03 决定赦免一些作弊者.他将正方形矩阵均分为 4 个更小的正方形矩 ...

  4. TActionManager Delphi 超级方便的快捷键 草草

    delphi 中用快捷键 草 实在是 太简单了 . 自己摸索出来的 方法 --------------------------------------------------------------- ...

  5. 欢迎加入 DotNet NB 交流学习群

    目录 起因 创建群组 群成员 技术交流 社区推广 社区前辈 欢迎加入 起因 自从2019年参加 .NET Conf China 大会之后,我创办了一个公众号 DotNet NB,内容主要是 关于 .N ...

  6. Linux shell的while循环

    while循环 #!/bin/bash #其中":"表示while循环的条件永远为真的意思 while : do read -p "Enter a number [1-5 ...

  7. 如何在.NET Core中为gRPC服务设计消息

    如何在.NET Core中为gRPC服务设计消息 使用协议缓冲区规范定义gRPC服务非常容易,但从需求转换为.NET Core,然后管理服务的演变时,需要注意几件事. 创建gRPC服务的核心是.pro ...

  8. ASCII编码的诞生:解决字符标准化与跨平台通信的需求

    在计算机的发展过程中,字符的表示和传输一直是一个重要的问题.为了实现字符的标准化和跨平台通信,ASCII(American Standard Code for Information Intercha ...

  9. Power BI 13 DAY

    分组依据 在PQ下对维度进行汇总,并对其他字段进行不同的计算方式,就需要使用分组依据 将下表中已"店名"为维度对重复店名作排重处理,对"单号"字段进行计数计算, ...

  10. Educational Codeforces Round 136 (Rated for Div. 2) A-E

    比赛链接 A 题解 知识点:模拟. 所有点都跑一遍即可. 另外可以不模拟, \(\geq 2*2\) 的情况都可以摆在 \((2,2)\) 这个点,其他摆在 \((1,1)\) . 时间复杂度 \(O ...