python查找并删除相同文件-UNIQ File-script版本

今天用wxPython做了一个GUI程序，实现查找指定目录内的相同文件，主要原理是计算文件的md5值（计算前先找出文件大小相同的文件，然后计算这些文件的md5值，而不是所有文件都计算，大大减少了md5的计算量），加入了多线程功能。

以下是其脚本版本(无需安装wxPython)

UNIQFile-script.py

 # -*- coding: gbk -*-

 '''

 Author:@DoNotSpyOnMe

 Blog: http://www.cnblogs.com/aaronhoo

 '''

 import hashlib

 import os

 import threading

 def getFileSize(filePath):

     return os.path.getsize(filePath)        

 ''' 一般文件的md5计算方法,一次读取文件的全部内容'''

 def CalcMD5(filepath):

     with open(filepath,'rb') as f:

         md5obj = hashlib.md5()

         md5obj.update(f.read())

         hash = md5obj.hexdigest()

         return hash

 '''大文件计算md5的方法，分批读取文件内容，防止内存爆掉'''

 def GetFileMd5(filename):

     if not os.path.isfile(filename):

         return

     myhash = hashlib.md5()

     f = open(filename,'rb')

     while True:

         b = f.read(8*1024)

         if not b :

             break

         myhash.update(b)

     f.close()

     return myhash.hexdigest()

 def GetAllFiles(directory):

     files=[]

     for dirpath, dirnames,filenames in os.walk(directory):

         if filenames!=[]:

             for file in filenames:

                 files.append(dirpath+'\\'+file)
　　　　 files.sort(key=len)#按照文件名的长度排序

     return files

 def findSameSizeFiles(files):

     dicSize={}

     for f in files:

         size=getFileSize(f)

         if not dicSize.has_key(size):

             dicSize[size]=f

         else:

             dicSize[size]=dicSize[size]+';'+f

     dicCopy=dicSize.copy()

     for k in dicSize.iterkeys():

         if dicSize[k].find(';')==-1:

            dicCopy.pop(k)

     del dicSize

     return dicCopy

 def findSameMD5Files(files):

     dicMD5={}

     for f in files:

         print 'calculating the md5 value of file %s'%f

         md5=GetFileMd5(f)

         if not dicMD5.has_key(md5):

             dicMD5[md5]=f

         else:

             dicMD5[md5]=dicMD5[md5]+';'+f

     dicCopy=dicMD5.copy()

     for k in dicMD5.iterkeys():

         if dicMD5[k].find(';')==-1:

            dicCopy.pop(k)

     del dicMD5

     return dicCopy

 def removeSameFile(mydir):

     msg=''

     msgUniq='Result:No file is removed since they are all uniq.'

     try:

         existsFlag=False

         files=GetAllFiles(mydir)

         print'%s files found in directory %s\n'%(len(files),mydir)

         dicFileOfSameSize=findSameSizeFiles(files)

         if dicFileOfSameSize=={}:

             print msgUniq

             return

         else:

             #list the duplicated files first:

             dicFiltered={}

             for k in dicFileOfSameSize.iterkeys():

                 filesOfSameSize=dicFileOfSameSize[k].split(';')

                 dicSameMD5file=findSameMD5Files(filesOfSameSize)

                 if dicSameMD5file!={}:

                     existsFlag=True

                     for k in dicSameMD5file.iterkeys():

                         msg=msg+'md5 %s: %s'%(k,dicSameMD5file[k])+'\n'

                         dicFiltered[k]=dicSameMD5file[k]

             if not existsFlag:

                 msg=msgUniq

                 return

             else:

                 msg='Duplicated files:\n'+msg+'\n'

                 #then remove the duplicated files:

                 removeCount=0

                 for k in dicFiltered.iterkeys():

                     sameFiles=dicFiltered[k].split(';')

                     flagRemove=False

                     for f in sameFiles:

                         if not flagRemove:

                             flagRemove=True

                         else:

                             msg=msg+'Removing file: %s'%f+'\n'

                             os.remove(f)

                             removeCount=removeCount+1

                 msg=msg+'%s files are removed.\n'%removeCount

     except Exception,e:

             print e

 #         msg='Exception occured.'

     finally:

         print msg+'\n'+'Operation finished.'

 def listSameFile(mydir):

     msg=''

     msgUniq='Result:All files are uniq.'

     try:

         existsFlag=False

         files=GetAllFiles(mydir)

         print '%s files found in directory %s\n'%(len(files),mydir)

         dicFileOfSameSize=findSameSizeFiles(files)

         if dicFileOfSameSize=={}:

             print msgUniq

             return

         else:

             for k in dicFileOfSameSize.iterkeys():

                 filesOfSameSize=dicFileOfSameSize[k].split(';')

                 dicSameMD5file=findSameMD5Files(filesOfSameSize)

                 if dicSameMD5file!={}:

                     existsFlag=True

                     for k in dicSameMD5file.iterkeys():

                         msg=msg+'md5 %s: %s'%(k,dicSameMD5file[k])+'\n'

             if not existsFlag:

                 msg=msgUniq

             else:

                 msg='Duplicated files:\n'+msg

     except Exception,e:

             print e

 #         msg='Exception occured.'

     finally:

         print msg+'\n'+'Operation finished.'

 if __name__=="__main__":

     print 'This program is designed for clearing the duplicated files and saving memory space.Select a directory and we will find or remove the duplicated files.'

     print 'All rights are reserved by @DoNotSpyOnMe'

     print '\n'

     print "You have three options:"

     print "'f' for finding the duplicated files in the directory that you're required to enter later,or"

     print "'r' for finding and the removing the duplicated file,or"

     print "'q' to quit"

     while True:

         option=raw_input('Please enter your option:\n')

         option=option.lower()

         while option!='f' and option!='r' and option!='q':

             option=raw_input('Please enter your option:\n')

         if option=='f' or option=='r':

             mydir=raw_input('Please enter the direcotry containing files:\n')

             mydir=mydir.lower()

             while mydir.find('\\')==-1 or not os.path.isdir(mydir):

                 mydir=raw_input('Please enter a valid direcotry containing files:\n')

             if option=='f':

                 listSameFile(mydir)

             else:

                 removeSameFile(mydir)

         elif option=='q':

             exit(0)

         print ''

python查找并删除相同文件-UNIQ File-script版本的更多相关文章

python查找并删除相同文件-UNIQ File-wxPython版本
今天用wxPython做了一个GUI程序,我称之为UNIQ File,实现查找指定目录内的相同文件,主要原理是计算文件的md5值(计算前先找出文件大小相同的文件,然后计算这些文件的md5值,而不是所有 ...
python查找并删除相同文件-UNIQ File-wxPython-v6
相比第一版,新增:菜单,对话框,文件过滤器,操作结果保存,配置功能(自己写了一个读写配置文件的功能),提示语优化,模块分化更合理. 截图: 源代码: UniqFile-wxPython-v6.py: ...
Linux查找并删除重复文件的命令行fdupes工具，dupeGuru图形工具
查了几十个网页,找到这个接近满意的解决方案http://unix.stackexchange.com/questions/146197/fdupes-delete-files-aft... 不过正则里 ...
Linux系统中查找、删除重复文件，释放磁盘空间。
在Linux系操作系统中查找并删除重复文件的方法的确有很多,不过这里介绍的是一款非常简单实用的软件FSlint.FSlint是一个重复文件查找工具,可以使用它来清除不必要的重复文件,笔者经常使用它来释 ...
Python小工具--删除svn文件
有的时候我们需要删除项目下的svn相关文件,但是SVN会在所有的目录下都创建隐藏文件.svn,手工一个个目录查找然后删除显然比较麻烦.所以这里提供了一个Python小工具用于批量删除svn的相关文件: ...
利用lsof命令查找已经删除的文件来释放磁盘空间
测试环境一台服务器/目录空间使用率达到97%,但是通过du -sh *发现实际空间没用到那么多,初步怀疑,之前删除的文件,有运行中的进程一直占用,导致空间没有释放,如图通过du -sh *发现共实际使 ...
在 Linux 中查找和删除重复文件
原文链接:https://www.linuxprobe.com/linux-FSlint.html FSlint同时具有GUI和CLI模式.因此,对于新手来说,这是一个用户友好的工具.FSlint不仅 ...
fso查找被删除的文件
<html> <head> </head> <body> 源目录:<input id="txtOld" value=" ...
python 递归删除空文件夹
Python如何递归删除空文件夹 1.Python如何递归删除空文件夹,这个问题很常见.但大多数人的解决办法都是自己实现递归函数解决这个问题,其实根本不用那么麻烦.Python中的os.walk提供了 ...

随机推荐

php上传$_FILES 无法取值
无法取值的主要原因在form. 代码 <form method="post" action="****" name="theForm" ...
C#使用百度API通过IP获取地理位置和坐标
百度接口相关说明:http://developer.baidu.com/map/ip-location-api.htm 返回是json格式,首先构建相关反系列化类: #region AddressFo ...
EF批量插入扩展
https://efbulkinsert.codeplex.com/ https://github.com/loresoft/EntityFramework.Extended
MyEclipse项目中的java文件的图标变成空心的问题
今天从SVN更新了一下整个工程,更新完成后发现工程的目录顺序变了,Java文件的图标也由原来实心"J"变成了空心的"J"了,网上查了一下,发现这样的问题不多,解 ...
Yii2.0 实现的短信发送
原文地址:http://www.phpxs.com/post/4245/ yii2-smserGithub项目主页 https://github.com/daixianceng/yii2-smser ...
Mongodb3.0.6副本集+分片学习笔记
一.使用问题记录 1. mongodb3.0.6使用mongostat参数 >./mongostat -h 127.0.0.1:27017 -u root -p 123456 /authenti ...
Loader Generator---loading图片生成器
if(公司配有专业的设计师) return; Recommend("http://loadergenerator.com/");
C#技术漫谈之垃圾回收机制(GC)(转)
GC的前世与今生虽然本文是以.NET作为目标来讲述GC,但是GC的概念并非才诞生不久.早在1958年,由鼎鼎大名的图林奖得主John McCarthy所实现的Lisp语言就已经提供了GC的功能,这是 ...
安装使用ubuntu和opensuse
liquid: n.液体, adj. 液体的, 流动的 liquidate: v. 清洗; 清算; 变现; 杀戮; weird: [wi2d] e:i, ir:2 离奇的,古怪的... 英文名称, 直 ...
EDW on Hadoop(Hadoop上的数据仓库)技术选型和实践思考
在这篇文章中, 将讨论EDW on Hadoop 有哪些备选方案, 以及我个人的倾向性, 最后是建构方法. 欢迎转载, 但必须注明原贴(刘忠武, http://www.cnblogs.com/ha ...

python查找并删除相同文件-UNIQ File-script版本

python查找并删除相同文件-UNIQ File-script版本的更多相关文章

随机推荐

热门专题