如何用Python寻找重复文件并删除

在实际生活中，经常会有文件重复的困扰，即同一个文件可能既在A目录中，又在B目录中，更可恶的是，即便是同一个文件，文件名可能还不一样。在文件较少的情况下，该类情况还比较容易处理，最不济就是one by one的人工比较——即便如此，也很难保证你的眼神足够犀利。倘若文件很多，这岂不是个impossible mission？最近在看《Python UNIX和Linux系统管理指南》，里面就有有关“数据比较”的内容，在其基础上，结合实际整理如下。

该脚本主要包括以下模块:diskwalk,chechsum,find_dupes,delete。其中diskwalk模块是遍历文件的，给定路径，遍历输出该路径下的所有文件。chechsum模块是求文件的md5值。find_dupes导入了diskwalk和chechsum模块，根据md5的值来判断文件是否相同。delete是删除模块。具体如下：

1. diskwalk.py

import os,sys

class diskwalk(object):

        def __init__(self,path):

                self.path = path

        def paths(self):

                path=self.path

                path_collection=[]

                for dirpath,dirnames,filenames in os.walk(path):

                        for file in filenames:

                                fullpath=os.path.join(dirpath,file)

                                path_collection.append(fullpath)

                return path_collection

if __name__ == '__main__':

        for file in diskwalk(sys.argv[1]).paths():

                print file

2. chechsum.py

import hashlib,sys

def create_checksum(path):

    fp = open(path)

    checksum = hashlib.md5()

    while True:

        buffer = fp.read(8192)

        if not buffer:break

        checksum.update(buffer)

    fp.close()

    checksum = checksum.digest()

    return checksum

if __name__ == '__main__':

        create_checksum(sys.argv[1])

3. find_dupes.py

from checksum import create_checksum

from diskwalk import diskwalk

from os.path import getsize

import sys

def findDupes(path):

    record = {}

    dup = {}

    d = diskwalk(path)

    files = d.paths()

    for file in files:

        compound_key = (getsize(file),create_checksum(file))

        if compound_key in record:

            dup[file] = record[compound_key]

        else:

            record[compound_key]=file

    return dup

if __name__ == '__main__':

    for file in  findDupes(sys.argv[1]).items():

        print "The duplicate file is %s" % file[0]

        print "The original file is %s\n" % file[1]

findDupes函数返回了字典dup，该字典的键是重复的文件，值是原文件。这样就解答了很多人的疑惑，毕竟，你怎么确保你输出的是重复的文件呢？

4. delete.py

import os,sys

class deletefile(object):

    def __init__(self,file):

        self.file=file

    def delete(self):

        print "Deleting %s" % self.file

        os.remove(self.file)

    def dryrun(self):

        print "Dry Run: %s [NOT DELETED]" % self.file

    def interactive(self):

        answer=raw_input("Do you really want to delete: %s [Y/N]" % self.file)

        if answer.upper() == 'Y':

            os.remove(self.file)

        else:

            print "Skiping: %s" % self.file

        return

if __name__ == '__main__':

    from find_dupes import findDupes

        dup=findDupes(sys.argv[1])

    for file in dup.iterkeys():

        delete=deletefile(file)

        #delete.dryrun()

          delete.interactive()

        #delete.delete()

deletefile类构造了3个函数，实现的都是文件删除功能、其中delete函数是直接删除文件，dryrun函数是试运行，文件并没有删除，interactive函数是交互模式，让用户来确定是否删除。这充分了考虑了客户的需求。

总结：这四个模块已封装好，均可单独使用实现各自的功能。组合起来就可批量删除重复文件，只需输入一个路径。

如何用Python寻找重复文件并删除的更多相关文章

Python高效率遍历文件夹寻找重复文件
前言为什么要写这篇文章呢...主要还是业务中有个需求,遍历一个将近200w数据的文件夹,大部分还都是视频文件那种,但是这玩意用的次数还不多,做文件夹index也不是很ok,所以写了一个脚本来处理这个 ...
如何用Python判断一个文件是否被占用？
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理今天有同学问,用os模块的access()能否判断一个文件是否被占用?直觉上,这是行不通的,因为ac ...
[LeetCode] Find Duplicate File in System 在系统中寻找重复文件
Given a list of directory info including directory path, and all the files with contents in this dir ...
如何用python解析mysqldump文件
一.前言最近在做离线数据导入HBase项目,涉及将存储在Mysql中的历史数据通过bulkload的方式导入HBase.由于源数据已经不在DB中,而是以文件形式存储在机器磁盘,此文件是mysqldu ...
python 在大文件里面删除某一行，比较有效率的方法
用 python 处理一个文本时,想要删除其中中某一行,常规的思路是先把文件读入内存,在内存中修改后再写入源文件. 但如果要处理一个很大的文本,比如GB级别的文本时,这种方法不仅需要占用很大内存,而且 ...
如何用python操作XML文件
备注: 基于python3 背景:在统计覆盖率的时候希望绕属性name为test的节点具体实现源码如下所示,基本都是基于节点属性操作的,当然也就可以基于tag等其他标签去做,可根据需要调整 from ...
python 删除重复文件附源代码
啥也不说了,直接上源码 #! /usr/bin/env python #coding=utf-8 import os import md5 import time def getmd5( filena ...
Linux查找并删除重复文件的命令行fdupes工具，dupeGuru图形工具
查了几十个网页,找到这个接近满意的解决方案http://unix.stackexchange.com/questions/146197/fdupes-delete-files-aft... 不过正则里 ...
10行Python代码自动清理电脑内重复文件，解放双手！
大家好,又到了Python办公自动化系列. 今天分享一个系统层面的自动化案例: 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做 ...

随机推荐

C++回调函数的应用<转自：http://blog.csdn.net/wubin1124/article/details/4386269>
一回调函数我们经常在C++设计时通过使用回调函数可以使有些应用(如定时器事件回调处理.用回调函数记录某操作进度等)变得非常方便和符合逻辑,那么它的内在机制如何呢,怎么定义呢?它和其它函数(比如钩子函 ...
NSDate
NSDate : NSDate *date = [NSDate date];获取当前日期 NSDate 可以进行比较,通过earlierDate:方法获取二个日期中最早的. NSDate 通过late ...
WP7系统托盘和应用程序栏
(一)系统托盘和应用程序栏系统托盘(1)显示系统级别的状态信息(2)Apps能隐藏和显示系统托盘Micosoft.Phone.Shell.SystemTray.IsVisible=true;应用程序栏 ...
ajax500错误
昨天做一个需求,原先使用form提交的东西,领导说要改成使用ajax提交.嗯,听起来好像很简单很简单哦,可惜我已经很少敲代码了.擦,这工作让人槽点无数.果断写代码. var fm=document.g ...
linux shell 字符串操作
转:http://justcoding.iteye.com/blog/1963463 在做shell批处理程序时候,经常会涉及到字符串相关操作.有很多命令语句,如:awk,sed都可以做字符串各种操作 ...
搭建coreseek(sphinx+mmseg3)详细安装配置+php之sphinx扩展安装+php调用示例
http://blog.csdn.net/e421083458/article/details/21529969 常用的命令 ps -ef|grep searchd 如果你开了search服务后,你命 ...
ORACLE10g创建表空间，角色与授权
创建基础表空间,创建用户,授权. -- CREATE TABLESPACE CREATE TABLESPACE TS_JK_LAB_BASIC DATAFILE 'D:\TOOLS\ORACLE\PR ...
android权限permission大全
1.Android.permission.WRITE_USER_DICTIONARY允许应用程序向用户词典中写入新词 2.android.permission.WRITE_SYNC_SETTINGS写 ...
Java虚拟机13：互斥同步、锁优化及synchronized和volatile
互斥同步互斥同步(Mutual Exclusion & Synchronization)是常见的一种并发正确性保证手段.同步是指子啊多个线程并发访问共享数据时,保证共享数据在同一时刻只能被一 ...
FB引擎系列-之CloudSand
CloudSand,欲打破之前的集中版本制作的模式, http://code.taobao.org/p/cloudsand包含服务器端代码(php)和客户端代码(unity) EasyDown的时 ...

如何用Python寻找重复文件并删除

如何用Python寻找重复文件并删除的更多相关文章

随机推荐

热门专题