Atitit.论图片类型 垃圾文件的识别与清理  流程与设计原则 与api概要设计 v2 pbj

1. 俩个问题::识别垃圾文件与清理策略1

2. 如何识别垃圾图片1

2.1. 体积过小文件<10kb1

2.2. 增加扩展名对于无扩展名文件1

2.3. 清理非图片(bmp,jpg,jpeg,png)的文件2

2.4. 尺寸过小图片(210*150)2

2.5. 清理广告图片(高度宽度不成比例)超长超宽图片2

2.6. 清理重复图片(此结果不能加入指纹库)2

2.7. 非本类别的图片(人工识别)2

3. 垃圾图片文件指纹库3

3.1. 根据垃圾文件指纹库(模式结果固化)3

3.2. 根据垃圾文件路径名称库(加快性能比对速度,md5可能比较慢)3

4. 人工识别垃圾图片策略3

5. 清理策略3

6. Code3

6.1. 文件去重4

1. 俩个问题::识别垃圾文件与清理策略

2. 如何识别垃圾图片

2.1. 体积过小文件<10kb

2.2. 增加扩展名对于无扩展名文件

package com.attilax.clr;

import com.attilax.clr.imp.MoveExcuter;

import com.attilax.clr.imp.NoPicReconer;

import com.attilax.clr.imp.tooMinSizePicClrerPartImp;

import com.attilax.clr.imp.tooMiniPixPicClrerPartImp;

public class ClrerPicClrer extends ClrerAbs {

public static void main(String[] args) {

ClrerPicClrer c=new ClrerPicClrer();

c.dir="d:\\ati\\isheo";

c.dir="D:\\ati\\p2015\\pic_p";

NoExtnameCheckerImp  neImp=new NoExtnameCheckerImp();

c.PreProcessor=neImp;

c.traveDir(c.dir);

System.out.println("--f");

2.3. 清理非图片(bmp,jpg,jpeg,png)的文件

Gif js

2.4. 尺寸过小图片(210*150)

2.5. 清理广告图片(高度宽度不成比例)超长超宽图片

长宽比大于2的图片

2.6. 清理重复图片(此结果不能加入指纹库)

部分重复文件是广告文件,所以容易重复

2.7. 非本类别的图片(人工识别)

作者:: 老哇的爪子 Attilax 艾龙,  EMAIL:1466519819@qq.com

转载请注明来源: http://www.cnblogs.com/attilax/

3. 垃圾图片文件指纹库

3.1. 根据垃圾文件指纹库(模式结果固化)

3.2. 根据垃圾文件路径名称库(加快性能比对速度,md5可能比较慢)

4. 人工识别垃圾图片策略

不好的isho

不能like的pic

误删除的文件专门集中放在isho_manu文件夹中,人工处理

5. 清理策略

生成清理脚本(或者直接java程序模式)

移动到制定文件夹(推荐)

6. Code

AtibrowPrj

public class ClrerPicClrer extends ClrerAbs {

public static void main(String[] args) {

ClrerPicClrer c=new ClrerPicClrer();

c.dir="d:\\ati\\isheo";

//c.GabFileRecongers.add(new NoPicReconer());

tooMiniPixPicClrerPartImp ClrerPartImp = new tooMiniPixPicClrerPartImp();

ClrerPartImp.dir=c.dir;

ClrerPartImp.targetDir="d:\\ati\\tooMiniPixPic_files";

c.IClrerParts.add(ClrerPartImp);

tooMinSizePicClrerPartImp tmsc=new tooMinSizePicClrerPartImp();

tmsc.dir=c.dir;

tmsc.targetDir="d:/ati/tooMinSize_files";

c.IClrerParts.add(tmsc);

c.traveDir(c.dir);

System.out.println("--f");

}

6.1. 文件去重

DeduliAbs_ByMoveToNewFolder.java

Atitit.论图片类型 垃圾文件的识别与清理  流程与设计原则 与api概要设计 v2 pbj的更多相关文章

  1. Atitit.论垃圾文件的识别与清理 文档类型垃圾文件 与api概要设计pa6.doc

    Atitit.论垃圾文件的识别与清理 文档类型垃圾文件 与api概要设计pa6.doc 1. 俩个问题::识别垃圾文件与清理策略1 1.1. 文件类型:pic,doc,v,m cc,isho pose ...

  2. Atitit。Tree文件解析器的原理流程与设计实现  java  c# php js

    Atitit.Tree文件解析器的原理流程与设计实现  java  c# php js 1. 解析原理与流程1 1.1. 判断目录  ,表示服  dirFlagChar = "└├─&quo ...

  3. Atitit 基于图片图像 与文档混合文件夹的分类

    Atitit 基于图片图像 与文档混合文件夹的分类 太小的文档(txt doc csv exl ppt pptx)单独分类 Mov10KminiDoc 但是可能会有一些书法图片迁移,因为他们很微小,需 ...

  4. [转]webstorm中js文件被识别成txt类型

    问题描述: webstorm中index.js文件被识别成txt格式,如下图. 原因: webstorm中js文件被识别成txt文件,原因在于txt类型识别了以当前js文件名命名的模式. 解决办法: ...

  5. atitit.短信 验证码  破解  v3 p34  识别 绕过 系统方案规划----业务相关方案 手机验证码  .doc

    atitit.短信 验证码  破解  v3 p34  识别 绕过 系统方案规划----业务相关方案 手机验证码  .doc 1. 手机短信验证码 vs 图片验证码 安全性(破解成本)确实要高一些1 1 ...

  6. Atitit.java图片图像处理attilax总结

    Atitit.java图片图像处理attilax总结 BufferedImage extends java.awt.Image 获取图像像素点 image.getRGB(i, lineIndex); ...

  7. Atitit.java图片图像处理attilax总结  BufferedImage extends java.awt.Image获取图像像素点image.getRGB(i, lineIndex); 图片剪辑/AtiPlatf_cms/src/com/attilax/img/imgx.javacutImage图片处理titit 判断判断一张图片是否包含另一张小图片 atitit 图片去噪算法的原理与

    Atitit.java图片图像处理attilax总结 BufferedImage extends java.awt.Image 获取图像像素点 image.getRGB(i, lineIndex); ...

  8. 《前端之路》之 前端图片 类型 & 优化 & 预加载 & 懒加载 & 骨架屏

    目录 09: 前端图片 类型 & 优化 & 预加载 & 懒加载 & 骨架屏 09: 前端图片 类型 & 优化 & 预加载 & 懒加载 & ...

  9. Ajax实现文件上传的临时垃圾文件回收策略

    转载请注明原文出处:http://www.cnblogs.com/ygj0930/p/6126240.html 在我们web开发过程中,一个很重要的技术就是Ajax(异步传输).Ajax通过把数据从网 ...

随机推荐

  1. c#隐藏和重写基类方法的异同

    最近正在学习c#,对其中的方法重写和隐藏的概念很是模糊,现在将其归纳如下: 1:方法重写:就是在基类中的方法用virtual关键字来标识,然后在继承类中对该类进行重写(override),这样基类中的 ...

  2. [水煮 ReSharper] 高效开发—十个实用的快捷键

    所有 ReSherper 的功能都可以使用快捷键.大部分功能都有默认快捷键,剩下的少数功能可以自定义快捷键. ReSharper 提供了两种快捷键的方式 Visual Studio:这种方式可以减少与 ...

  3. C#单纯的字母数字ASCII码转换

    字母转换成数字 byte[] array = new byte[1];   //定义一组数组array            array = System.Text.Encoding.ASCII.Ge ...

  4. iOS阶段学习第15天笔记(NSDate操作)

    iOS学习(OC语言)知识点整理 一.OC关于NSDate类的操作实例代码 //默认直接显示对象,显示的是格林威治时间 //获取当前日期时间的实例方法 NSDate *date1=[[NSDate a ...

  5. HP+MYSQL网站SQL Injection攻防

    WebjxCom提示:程序员们写代码的时候讲究TDD(测试驱动开发):在实现一个功能前,会先写一个测试用例,然后再编写代码使之运行通过.其实当黑客SQL Injection时,同样是一个TDD的过程: ...

  6. 将AJAX返回值纵向排序赋值给Table标签

    /*下面是所有拼接这个表的代码*/ 1 function HandelAjaxReturnDataForContentTable(data) { var shareHtml = "" ...

  7. 轻量级权限管理系统(renren-security)

    renren-security是一个轻量级权限管理系统,其核心设计目标是开发迅速.学习简单.轻量级.易扩展.使用renren-security搭建项目,只需编写30%左右代码,其余的代码交给系统自动生 ...

  8. Scalaz(48)- scalaz-stream: 深入了解-Transducer: Process1-tee-wye

    在上一篇讨论里我们介绍了Source,它的类型款式是这样的:Process[F[_],O].Source是通过await函数来产生数据流.await函数款式如下: def await[F[_], A, ...

  9. JVM的生命周期、体系结构、内存管理和垃圾回收机制

    一.JVM的生命周期 JVM实例:一个独立运行的java程序,是进程级别 JVM执行引擎:用户运行程序的线程,是JVM实例的一部分 JVM实例的诞生 当启动一个java程序时.一个JVM实例就诞生了, ...

  10. web iis服务器安全性配置实例

    自己不维护服务器,不知道维护服务器的辛苦.刚开始为了嫌麻烦,抱有侥幸心理,一些繁琐的安全设置没有配置,结果服务器连一天都没撑过去.经过10天的反复摸索和努力,现在服务器已经稳定工作一个月了,特此整理本 ...