最近用到,记下来……

功能:

对指定目录下的所有TXT文件,通过MD5比较内容,删除掉重复的文件。文件的扩展可以修改成.docx、.doc、.jpg、.png,或者其它类型,根据需求灵活修改。

 public class CompareFile {

     public static void recursionDel(String direct){
//遍历得到文件所在目录下的txt文件
File dirFile=new File(direct);
FilenameFilter filter=new FilenameFilter() {
@Override
public boolean accept(File dir, String name) {
return name.endsWith(".txt");
}
}; List<File> list=new ArrayList<File>();
try {
//查找符合条件的文件
list = getFile(dirFile, filter, list);
//删除重复的文件,保留第一个
for (int i = 0;i<list.size();i++){
list.get(i).delete();
}
} catch (IOException e) {
e.printStackTrace();
} }
//获取指定目录下指定类型的文件(包括子目录)
private static List<File> getFile(File dir,FilenameFilter filter,List<File>list)throws IOException
{
File[]files=dir.listFiles();
for(File file:files)
{
if (file.isDirectory()) {// 如果需要对子目录查重,下面这行注释去掉
// getFile(file, filter, list);
}
else {
if(filter.accept(dir, file.getName()))//是文件则将文件放入list列表中
list.add(file);
}
} list = recursionCompare(list);
return list;
}
//比较文件MD5值
private static List<File> recursionCompare(List<File> list) {
Collections.sort(list,new Comparator<File>(){
public int compare(File o1, File o2) {
return String.valueOf(o2.lastModified()).compareTo(String.valueOf(o1.lastModified()));
}
});
int size = list.size();
String dateStr = "";
Calendar cal = Calendar.getInstance();
SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd");
//获取文件最新日期
if(size>0){
File fistFile = list.get(0);
cal.setTimeInMillis(fistFile.lastModified());
//文件的最新日期
dateStr = sdf.format(cal.getTime());
} String dateStr2 = "";
List<File> lis = new ArrayList<>();
//找到日期相同的文件,一旦不同,退出,避免全盘遍历
for(File f:list){
cal.setTimeInMillis(f.lastModified());
dateStr2 = sdf.format(cal.getTime());
if(dateStr.equals(dateStr2)){
lis.add(f);
}else{
break;
}
} List<File> reList = new ArrayList<File>();//返回
//如果需要对所有文件(不仅仅是最新日期的)遍历,则lis=list;
for (int i = 0;i<lis.size();i++){
for(int k = i+1;k<lis.size();k++){
String str1 = getFileMD5(lis.get(i));
String str2 = getFileMD5(lis.get(k));
if(str1.equals(str2)){
reList.add(lis.get(k));
break;
}
}
}
//重复的文件,不包含本身
return reList;
} // 计算文件的 MD5 值
public static String getFileMD5(File file) {
if (!file.isFile()) {
return null;
}
MessageDigest digest = null;
FileInputStream in = null;
byte buffer[] = new byte[8192];
int len;
try {
digest =MessageDigest.getInstance("MD5");
in = new FileInputStream(file);
while ((len = in.read(buffer)) != -1) {
digest.update(buffer, 0, len);
}
BigInteger bigInt = new BigInteger(1, digest.digest());
return bigInt.toString(16);
} catch (Exception e) {
e.printStackTrace();
return null;
} finally {
try {
in.close();
} catch (Exception e) {
e.printStackTrace();
}
}
} }

java MD5比较文件内容的更多相关文章

  1. java读取txt文件内容

    package read; import java.io.BufferedReader; import java.io.File; import java.io.FileReader; public ...

  2. JAVA获取txt文件内容

    JAVA 读取txt文件内容 通常,我们可以直接通过文件流来读取txt文件的内容,但有时可能会出现乱码!此时只要设置一下文件字符编码即可. public class txttest { /** * 读 ...

  3. Java 实例 - 读取文件内容

    原文作者:菜鸟教程 原文链接:Java 实例 - 读取文件内容(建议前往原文以获得最佳体验) 按行读取文本文件 import java.io.*; public class Main { public ...

  4. Java 读取 txt 文件内容到容器 List

    方法一: 一.桌面上准备 DataObject.txt 文件,内容为: 二.打开 Eclipse,编写代码如下: import java.io.BufferedReader; import java. ...

  5. java对excel文件内容读写修改操作

    Read.java package domain; import java.io.FileInputStream; import java.io.InputStream; import jxl.Cel ...

  6. Java之修改文件内容:字符串逐行替换

    依赖包: <dependency> <groupId>commons-io</groupId> <artifactId>commons-io</a ...

  7. java nio 映射文件内容到内存

    FileChannel 的一个最好的功能就是能将文件的某个部分直接映射到内存.这要感谢 FileChannel.map() 方法,这个方法有下面三个参数: mode:映射到内存需要指定下面三种模式之一 ...

  8. Java:清空文件内容

    文章来源:https://www.cnblogs.com/hello-tl/p/9139432.html import java.io.*; public class FileBasicOperati ...

  9. Java:获取文件内容

    文章来源:https://www.cnblogs.com/hello-tl/p/9139353.html import java.io.*; public class FileBasicOperati ...

随机推荐

  1. 【计算机网络】 一个小白的DNS学习笔记

    参考书籍 <计算机网络-自顶向下>  作者 James F. Kurose   DNS的作用   DNS是因特网的目录服务 DNS是因特网的目录服务,它提供了主机名到IP地址映射的查询服务 ...

  2. LINUX 笔记-wc命令

    命令参数: -c 统计字节数. -l 统计行数. -m 统计字符数.这个标志不能与 -c 标志一起使用. -w 统计字数.一个字被定义为由空白.跳格或换行字符分隔的字符串.

  3. 总结HTML5

    都说项目页面是HTML5写的,但是HTML5的特别之处用了多少? 1.是不是页面布局都是统一的div,然后class写样式?可是HTML5提供了好多新标签 ,css中直接用标签名即可定义样式,不用费力 ...

  4. 【八】php三大流程控制总结

    1.顺序控制---不加控制的流程,默认按照顺序来执行你编写的代码 2.分支控制--有选择的来执行代码 单分支 语法:if(条件表达式){语句:} 快速入门 $age=150; if($age>1 ...

  5. 自学LinkedBlockingQueue源码

    自学LinkedBlockingQueue源码 参考:http://www.jianshu.com/p/cc2281b1a6bc 本文需要关注的地方 生产者-消费者模式好处: 读取和插入操作所使用的锁 ...

  6. LeetCode 405. Convert a Number to Hexadecimal (把一个数转化为16进制)

    Given an integer, write an algorithm to convert it to hexadecimal. For negative integer, two’s compl ...

  7. 读书笔记-你不知道的JS上-对象

    好想要对象··· 函数的调用位置不同会造成this绑定对象不同.但是对象到底是什么,为什么要绑定他们呢?(可以可以,我也不太懂) 语法 对象声明有两个形式: 1.字面量 => var obj = ...

  8. grunt-contrib-connect自动刷新html页面

    grunt-contrib-connect可以在我们开发的时候自动刷新页面,省去了手动刷新的时间. 下面说一下如何配置grunt-contrib-connect 1.下载插件包 npm install ...

  9. I - Intersection HDU - 5120(圆环相交面积)

    Matt is a big fan of logo design. Recently he falls in love with logo made up by rings. The followin ...

  10. AngularJS学习篇(七)

    AngularJS 过滤器 过滤器可以使用一个管道字符(|)添加到表达式和指令中. <!DOCTYPE html> <html> <head> <meta c ...