Heritrix源码分析(六) Heritrix的文件结构分析(转）

本博客属原创文章,欢迎转载！转载请务必注明出处:http://guoyunsky.iteye.com/blog/642618

本博客已迁移到本人独立博客: http://www.yun5u.com/

欢迎加入Heritrix群(QQ)：109148319,10447185 , Lucene/Solr群(QQ) : 118972724

每通过Heritrix运行一次抓取后,发现在该Job目录下就会有很多文件。这里说明下每个文件的作用，同时更主要介绍它的日志文件，因为我们可以通过日志文件发现Heritrix的抓取情况。首先贴个图:

以上就是Heritrix完成的文件结构，现在一一说明

序号	文件名	说明
1	order.xml	Heritrix运行的所有配置,一个order.xml就代表一个抓取任务
2	seeds.txt	种子文件,Heritrix从里面的URL开始抓取
3	state	Heritrix采用BDB去保存URL，这个目录就是bdb目录
4	scratch	保存网页内容,每一个URL网页内容都对应一对ris和ros文件
5	logs	保存了Heritrix抓取时的日志,会这种介绍。可以从这些日志文件挖掘抓取情况
6	checkpoints	等同于数据库的checkpoint,Heritrix可以设置定时，然后定时备份其所有文件,也就是这里介绍的所有文件。同时在做这个操作的时候Heritrix暂停所有抓取.
7	seeds-report.txt	种子抓取汇报,主要针对seeds.txt里的种子URL做个说明。等下会详细说明...
8	responsecode-report.txt	抓取URL的服务器响应代码以及该代码的URL个数。等下会详细说明...
9	processors-report.txt	每个处理器的抓取报告，等下会详细说明
10	mimetype-report.txt	网页类型抓取汇报，等下会详细说明
11	frontier-report.txt	调度器处理报告,等下会详细说明
12	crawl-report.txt	抓取汇报,等下会详细说明
13	crawl-manifest.txt	里面包含了Heritrix涉及到的文件
14	hosts-report.txt	域抓取汇报,等下会详细说明

现在重点说明一下Heritrix的所有日志文件：

1.抓取汇报文件:crawl-report.txt
                    抓取名字:Crawl Name
                    抓取状态:Crawl Status
                    抓取用时:Duration Time
                    成功抓取的种子数:Total Seeds Crawled
                    没有抓取的种子数:Total Seeds not Crawled
                    共抓取的host个数:Total Hosts Crawled
                    共抓取的文档数(URL数):Total Documents Crawled
                    处理速度(文档/秒):Processed docs/sec
                    宽带速率(KB/秒):Bandwidth in Kbytes/sec
                    抓取的字节数:Total Raw Data Size in Bytes
                    共抓取的字节数:Novel Bytes: 11644599984 (11 GB)

2.调度器汇报:frontier-report.txt
                   1)队列描述：
                             处理中队列:IN-PROCESS QUEUES
                             准备队列:READY QUEUES
                             延迟队列:SNOOZED QUEUES
                             不在活动状态队列:INACTIVE QUEUES
                             退休队列:RETIRED QUEUES
                   2)属性描述:
                              queue:队列ID,为class key
                              currentSize:当前队列包含URL个数
                              totalEnqueues:进入该队列的URL个数
                              sessionBalance:预算值
                              lastCost:上一个URL所花费成本
                              (averageCost):平均成本
                              lastDequeueTime:上一个URL出队列的时间
                              wakeTime:醒来的时间
                              totalSpend/totalBudget:总花费
                              errorCount:出现错误的URL个数
                              lastPeekUri:上一个获取的URL
                             lastQueuedUri:上一个进入队列的URL

3.抓取host汇报(按urls个数从大到小排序):hosts-report.txt
                  [#urls]:该host下URL个数
                  [#bytes]:该host下所抓取的字节数
                  [host]:host
                  [#robots]:被爬虫协议拒绝的url个数
                  [#remaining]:剩下还未处理的URL个数

4.网页类型(一般为text/dns和text/html)抓取汇报:mimetype-report.txt
                  [#urls]:该网页类型的url个数
                  [#bytes]:该网页类型一共处理的字节数
                  [mime-types]:网页类型(text/dns和text/html)

5.处理器汇报:processors-report.txt
                 1)总体汇报:Processors report
                          Job being crawled:该JOB来源的JOB
                          Number of Processors:处理器个数,包括无效的处理器
                          NOTE:处理器说明
                 2)单个Processor汇报:
                          Processor:处理器名
                          Function:处理器功能
                          CrawlURIs handled:该处理器下处理的URL个数
                          Recovery retries:
                          Links extracted:抽取出来的URL个数

6.Http response汇报:responsecode-report.txt
                         [rescode]:Http response code
                                     1:请求http
                                     200:http成功相应
                                     302:暂时性重定向
                                     500:http服务器内部错误
                          [#urls]:是该code的URL个数

Heritrix源码分析(六) Heritrix的文件结构分析(转）的更多相关文章

Heritrix源码分析(九) Heritrix的二次抓取以及如何让Heritrix抓取你不想抓取的URL
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/644396 本博客已迁移到本人独立博客: http://www.yun5u ...
Heritrix源码分析(十三) Heritrix的控制中心(大脑)CrawlController(二)
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/650744 本博客已迁移到本人独立博客: http://www.yun5u. ...
Heritrix源码分析(七) Heritrix总体介绍(转）
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/642794 本博客已迁移到本人独立博客: http://www.yun ...
Heritrix源码分析(十一) Heritrix中的URL--CandidateURI和CrawlURI以及如何增加自己的属性（转）
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/649889 本博客已迁移到本人独立博客: http://www.yun5u.com/ ...
Heritrix源码分析(十) Heritrix中的Http Status Code(Http状态码)（转）
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/649737 本博客已迁移到本人独立博客: http://www.yun5u ...
phpcms 源码分析六：index文件
这次是逆雪寒对index.php的分析: /* [/php] [ 本帖最后由逆雪寒于 2007-12-25 16:12 编辑 ] 尽量每天都有新的东西每天都能进一小步现在开始讲 index.ph ...
Heritrix源码分析(十四) 如何让Heritrix不间断的抓取（转）
欢迎加入Heritrix群(QQ):109148319,10447185 , Lucene/Solr群(QQ) : 118972724 本博客已迁移到本人独立博客: http://www.yun5u ...
Heritrix源码分析(十四)
近段时间在搞定Lucene的一些问题,所以Heritrix源码分析暂时告一段落.今天下午在群里有同学提到了Heritrix异常终止的问题以及让Heritrix不停的抓取(就是抓完一遍后载入种子继续抓取 ...
angular源码分析：injector.js文件分析——angular中的依赖注入式如何实现的（续）
昨天晚上写完angular源码分析:angular中jqLite的实现--你可以丢掉jQuery了,给今天定了一个题angular源码分析:injector.js文件,以及angular的加载流程,但 ...

随机推荐

用eclipse创建maven项目
Maven是基于项目对象模型(POM),也可以进行模块化开发.并且是个强大的管理工具.本经验用eclipse来创建maven项目步骤: 1.下载并正确安装eclipse 2.在eclipse上成功安 ...
理解 JMeter 聚合报告（Aggregate Report）
Aggregate Report 是 JMeter 常用的一个 Listener,中文被翻译为“聚合报告”.今天再次有同行问到这个报告中的各项数据表示什么意思,顺便在这里公布一下,以备大家查阅. 如果 ...
测试in和or的执行时间
declare @d datetime set @d=getdate() /*你的SQL脚本开始*/ SELECT * FROM T_KNOWLEDGE WHERE KNOWLEDGE_TYPE_OI ...
Java 常用数据结构深入分析（Vector、ArrayList、List、Map）
线性表,链表,哈希表是常用的数据结构,在进行Java开发时,JDK已经为我们提供了一系列相应的类来实现基本的数据结构.这些类均在java.util包中.本文试图通过简单的描述,向读者阐述各个类的作用以 ...
【Apache运维基础(5)】Apache的Rewrite攻略（2）
简述 .htaccess文件(或者"分布式配置文件")提供了针对目录改变配置的方法, 即,在一个特定的文档目录中放置一个包含一个或多个指令的文件, 以作用于此目录及其所有子目录.作 ...
DB2_SQL_常用知识点&实践
DB2_SQL_常用知识点&实践一.删除表中的数据(delete或truncate) 1 truncate table T_USER immediate; 说明:Truncate是一个能够快 ...
WebSphere常用设置
WebSphere常用设置 1.查看环境配置信息D:\Program Files\IBM\WebSphere\AppServer\profiles\AppSrv01\logs\AboutThisPro ...
Oracle ->> 生成测试数据
declare v_exists_table number; begin select count(*) into v_exists_table from all_tables where table ...
ACM数据结构相关资料整理【未完成，待补充】
在网上总是查不到很系统的练ACM需要学习的数据结构资料,于是参考看过的东西,自己整理了一份. 能力有限,欢迎大家指正补充. 分类主要参考<算法竞赛入门经典训练指南>(刘汝佳),山东大学数据 ...
NDK(9)Application.mk各属性介绍
本文参考 : http://blog.csdn.net/grimraider/article/details/7587816 在NDK中编写的是本地程序,这个程序的源码在 jni 下,这个本地项目的配 ...

Heritrix源码分析(六) Heritrix的文件结构分析(转）

Heritrix源码分析(六) Heritrix的文件结构分析(转）的更多相关文章

随机推荐

热门专题