Atitit.论垃圾文件的识别与清理 文档类型垃圾文件 与api概要设计pa6.doc
Atitit.论垃圾文件的识别与清理 文档类型垃圾文件 与api概要设计pa6.doc
1.1. 文件类型:pic,doc,v,m cc,isho pose,prj,codelib,doc mana(inputmethod,acc)1
2.3. 清理非文档类型(doc docx txt html )的文件2
3. 误删除的文件专门集中放在xx_manu文件夹中,人工处理2
4.2. 根据垃圾文件路径名称库(加快性能比对速度,md5可能比较慢)3
1. 俩个问题::识别垃圾文件与清理策略
1.1. 文件类型:pic,doc,v,m cc,isho pose,prj,codelib,doc mana(inputmethod,acc)
作者:: 老哇的爪子 Attilax 艾龙, EMAIL:1466519819@qq.com
转载请注明来源: http://blog.csdn.net/attilax
2. 如何识别垃圾文件
2.1. 体积过小文件
2.2. 过大文件
2.3. 清理非文档类型(doc docx txt html )的文件
Pic(gif,jpg,bmp,gif)
Js
2.4. 转换文件类型以及索引html即可
2.5. 清理重复文件(此结果不能加入指纹库)
2.6. 非本类别垃圾文件
搜索×,按照扩展名分组排序
3. 误删除的文件专门集中放在xx_manu文件夹中,人工处理
4. 垃圾图片文件指纹库
4.1. 根据垃圾文件指纹库(模式结果固化)
4.2. 根据垃圾文件路径名称库(加快性能比对速度,md5可能比较慢)
5. 人工识别垃圾图片策略
不好的isho
不能like的pic
误删除的文件专门集中放在isho_manu文件夹中,人工处理
6. 清理策略
生成清理脚本(或者直接java程序模式)
移动到制定文件夹(推荐)
7. 大概每年doc文档的规模300M
8. Code
AtibrowPrj
public class ClrerPicClrer extends ClrerAbs {
public static void main(String[] args) {
ClrerPicClrer c=new ClrerPicClrer();
c.dir="d:\\ati\\isheo";
//c.GabFileRecongers.add(new NoPicReconer());
tooMiniPixPicClrerPartImp ClrerPartImp = new tooMiniPixPicClrerPartImp();
ClrerPartImp.dir=c.dir;
ClrerPartImp.targetDir="d:\\ati\\tooMiniPixPic_files";
c.IClrerParts.add(ClrerPartImp);
tooMinSizePicClrerPartImp tmsc=new tooMinSizePicClrerPartImp();
tmsc.dir=c.dir;
tmsc.targetDir="d:/ati/tooMinSize_files";
c.IClrerParts.add(tmsc);
c.traveDir(c.dir);
System.out.println("--f");
}
8.1. 文件去重
DeduliAbs_ByMoveToNewFolder.java
8.2. 生成垃圾文件指纹库(by Md5)
com.attilax.clr.ClrByMd5 -gene -output_file "d:\ati\isho_gabFileMd5.txt" -dir "d:\ati\gabFilesFingers"
Atitit.论垃圾文件的识别与清理 文档类型垃圾文件 与api概要设计pa6.doc的更多相关文章
- Atitit.论图片类型 垃圾文件的识别与清理 流程与设计原则 与api概要设计 v2 pbj
Atitit.论图片类型 垃圾文件的识别与清理 流程与设计原则 与api概要设计 v2 pbj 1. 俩个问题::识别垃圾文件与清理策略1 2. 如何识别垃圾图片1 2.1. 体积过小文件<1 ...
- ABBYY PDF Transformer+从文件选项中创建PDF文档的教程
可使用OCR文字识别软件ABBYY PDF Transformer+从Microsoft Word.Microsoft Excel.Microsoft PowerPoint.HTML.RTF.Micr ...
- 怎么保护PDF文档和扫描文件里的机密信息
从事商务工作的人,必然要处理带有机密信息的文档,需要分享这些文档的时候,如何谨慎小心地对待那些机密信息,说到底还是取决于自己.分享文档的目的不同,对文档的保护类型和级别也不一样.例如,只有授权的读者才 ...
- ABBYY 识别结果的文档怎么导出
使用ABBYY FineReader Pro for Mac OCR文字识别软件识别文档时,识别结果可以保存至一个文件.复制到剪贴板或通过电子邮件发送.可以执行下列操作:导出整个文档.仅导出所选页面. ...
- PDF文件可以转换成txt文档吗
PDF是一种便携式的文件格式,传送和阅读都非常方便,是Adobe公司开发的跨平台文件格式,它无论在哪种打印机上都可以保证精确的颜色和准确的打印效果.可是有点遗憾的是PDF格式一般不能在手机上打开,或者 ...
- Atitit.atiagent agent分销系统 代理系统 设计文档
Atitit.atiagent agent分销系统 代理系统 设计文档 1. 启动项目1 2. 首也2 3. 登录功能2 4. 用户中心2 5. 充值查询3 6. 授权下级代理4 7. 我的提成5 ...
- DedeCMS模板文件不存在,无法解析文档! 问题定位方法
生成静态的时候,经常会遇到“模板文件不存在,无法解析文 档!”的问题.很多朋友试过论坛里很多方法,都是针对某些人可以解决,某些人的问题依旧,为什么呢?其实问题很可能确实是多种多样的,表现结果却是一样, ...
- POI实现word文档转html文件
POI word文件转html package com.feiruo.officeConvert; import java.io.BufferedWriter; import java.io.File ...
- asp.net输出docx文档出现【文件已损坏 无法打开】问题的解决方案
在某个项目中,有个需求需要将一些附件文档以字节流的形式直接存储在数据库中. 功能实现后,尝试过很多格式文件的上传下载处理,均未发现问题, 唯独在下载docx格式文件后,一打开文件就提示: “无法打开文 ...
随机推荐
- 17、Django实战第17天:机构详情展示
1.进入xadmin添加测试数据(教师.课程) 2.把以下4个前端页面复制到templates中 先打开这几个页面分析,它们和之前的课程机构列表页是不一样的机构,且没有共同的部分,但是这4个页面却是类 ...
- Hibernate 配置文件precision与scale
Oracle使用标准.可变长度的内部格式来存储数字.这个内部格式精度可以高达38位. NUMBER数据类型可以有两个限定符,如: column NUMBER ( precision, scale) 表 ...
- (转)MOMO的Unity3D研究院之深入理解Unity脚本的执行顺序(六十二)
http://www.xuanyusong.com/archives/2378 Unity是不支持多线程的,也就是说我们必须要在主线程中操作它,可是Unity可以同时创建很多脚本,并且可以分别绑定在不 ...
- java中遍历Map几种方法
java中的map遍历有多种方法,从最早的Iterator,到java5支持的foreach,再到java8 Lambda,让我们一起来看下具体的用法以及各自的优缺点. 先初始化一个map: publ ...
- http://zhidao.baidu.com/link?url=3tJ_i5gyYLrd7rFPk0eRYre_oxjCZvTOMOutp89LGhUgi6Ic6Ncama_GMAHnwfF73SVYGqy364vDfv6AY4ERPa
http://zhidao.baidu.com/link?url=3tJ_i5gyYLrd7rFPk0eRYre_oxjCZvTOMOutp89LGhUgi6Ic6Ncama_GMAHnwfF73SV ...
- 验收测试 - WebDriver 5
验收测试 - WebDriver - 配置 什么是WebDriver 这样说好了,它翻译起来就是Web驱动,用我的经验来说,它就是驱动浏览器运行的一个驱动器 有什么作用? 就像一个司机可以驱动一台汽车 ...
- angular directive 深入理解
由于业务的需要,最近angular 的diretive 研究的比较多,有和同事一起共同协作开发scada的项目, 对directive 有了进一步更深的理解. 感觉才开始真正理解了这句话的意思: In ...
- [Flutter] Creating, Importing & Using Dynamic Widgets from Other Files in a Flutter Application
In this lesson we’ll learn how to import widgets we’ve created in other files & use them in our ...
- 爪哇国新游记之二十八----从url指定的地址下载文件到本地
package download; import java.io.File; import java.io.FileOutputStream; import java.io.InputStream; ...
- spring 动态定时任务
功能介绍:商品自动上架.按修改或添加时设置的自动上架时间而启动定时任务 更改商品状态为上架. spring 中配置文件 <?xml version="1.0" encodin ...