Heritrix源码分析(十二) Heritrix的控制中心(大脑)CrawlController(一)(转）

本博客属原创文章,欢迎转载！转载请务必注明出处:http://guoyunsky.iteye.com/blog/650694

本博客已迁移到本人独立博客: http://www.yun5u.com/

欢迎加入Heritrix群(QQ)：109148319,10447185 , Lucene/Solr群(QQ) : 118972724

CrawlController的确是Heritrix的大脑,在Heritrix中拥有无上的权利！可以控制Heritrix的启动、暂停、停止,也定时进行数据统计、数据汇报和文件管理。同时CrawlController也基本上贯穿整个Heritrix代码,和CrawlURI一样。同时CrawlController纯代码页进2000行,下面就先介绍里面的属性和主要方法,同时对一些灵活用法也加以介绍：

1.属性:

//状态,Checkpoinging:表示正在备份
private static final Object CHECKPOINTING = "CHECKPOINTING".intern();
//状态,FINISHED:表示抓取结束
private static final Object FINISHED = "FINISHED".intern();
//状态,NASCENT:表示正在生成一个JOB
private static final Object NASCENT = "NASCENT".intern();
//状态,PAUSED:表示暂停结束,该状态Heritrix正暂停任何抓取
private static final Object PAUSED = "PAUSED".intern();
//状态,PAUSING:表示正在暂停,传达一个暂停命令到每一个线程暂停中间需要时间
private static final Object PAUSING = "PAUSING".intern();
//状态,PREPARING:表示抓取结束
private static final Object PREPARING = "PREPARING".intern();
//状态,RUNNING:表示正在运行
private static final Object RUNNING = "RUNNING".intern();
//状态,STARTED:表示已经启动
private static final Object STARTED = "STARTED".intern();
//状态,STOPPING:表示正在停止,传达一个停止命令到每一个线程暂停中间需要时间
private static final Object STOPPING = "STOPPING".intern();
//当前类的日志管理器
private final static Logger LOGGER = Logger.getLogger(CrawlController.class
.getName());
// 活动的日志文件名后缀
public static final String CURRENT_LOG_SUFFIX = ".log";
// 日志crawl.log.txt的文件名
private static final String LOGNAME_CRAWL = "crawl";
// 日志local-errors.log.txt的文件名
private static final String LOGNAME_LOCAL_ERRORS = "local-errors";
// 日志progress-statistics.log.txt的文件名
private static final String LOGNAME_PROGRESS_STATISTICS = "progress-statistics";
// runtime-errors.txt的文件名
private static final String LOGNAME_RUNTIME_ERRORS = "runtime-errors";
// 日志uri-errors.txt的文件名
private static final String LOGNAME_URI_ERRORS = "uri-errors";
// 日志manifest-report的文件名前缀
public final static String MANIFEST_REPORT = "manifest";
//processors-report.txt的文件名前缀
public final static String PROCESSORS_REPORT = "processors";
// crawl-manifest日志文件中中配置文件标签缩写
public static final char MANIFEST_CONFIG_FILE = 'C';
// crawl-manifest日志文件中中日志文件标签缩写
public static final char MANIFEST_LOG_FILE = 'L';
// crawl-manifest日志文件中中报告文件标签缩写
public static final char MANIFEST_REPORT_FILE = 'R';
//报告文件名数组
protected final static String[] REPORTS = { PROCESSORS_REPORT,
MANIFEST_REPORT };
//应急内存,当内存不够时Heritrix会释放这个内存去做一些紧急动作如数据备份
private static final int RESERVE_BLOCK_SIZE = 6 * 2 ^ 20; // 6MB
private static final int RESERVE_BLOCKS = 1;
//BDB数据库,Heritrix自己封装
private transient EnhancedEnvironment bdbEnvironment = null;
//用于Checkpoint备份，存储需要备份的数据
private transient Map<String, CachedBdbMap<?, ?>> bigmaps = null;
//备份器
private Checkpointer checkpointer;
//备份对象
private transient Checkpoint checkpointRecover = null;
//备份目录
private transient File checkpointsDisk;
//整个Heritrix目录
private transient File disk;
//日志文件目录
private transient File logsDisk;
//scratch文件
private transient File scratchDisk;
//BDB数据库文件
private transient File stateDisk;
//日志处理器跟文件处理器关联
transient private Map<Logger, FileHandler> fileHandlers;
//调度器
private transient Frontier frontier;
// 日志处理器,关联local-errors.log
public transient Logger localErrors;
// 日志处理器,关联 progress-statistics.log
private transient Logger progressStats;
//日志处理器,关联报告文件
public transient Logger reports;
// 日志处理器,关联runtime-errors.log
public transient Logger runtimeErrors;
// 日志处理器,关联uri-Errors.log
public transient Logger uriErrors;
// 日志处理器,关联crawl.log
public transient Logger uriProcessing;
//记录Hertrix创建的日志文件名
private StringBuffer manifest;
//最大字节数，来源于配置文件
private long maxBytes; //
//抓取限制，最大文档数，来源于配置文件
private long maxDocument;
// 抓取限制，最大时间，来源于配置文件
private long maxTime;
//管理order.xml
private transient CrawlOrder order;
//处理器链
private transient ProcessorChainList processorChains;
//事件监听器,比如正在运行、停止
private transient List<CrawlStatusListener> registeredCrawlStatusListeners = Collections
.synchronizedList(new ArrayList<CrawlStatusListener>());
//抓取状态监听器,这里监听哪些URl被忽略,哪些URL抓取失败等
private transient CrawlURIDispositionListener registeredCrawlURIDispositionListener;
//抓取状态监听器数据
protected transient ArrayList<CrawlURIDispositionListener> registeredCrawlURIDispositionListeners;
// 应急储备内存
private transient LinkedList<char[]> reserveMemory;
//抓取范围管理
private transient CrawlScope scope;
// CrawlServer和CrawlHost的缓存
private transient ServerCache serverCache;
//配置文件,如order.xml
private transient SettingsHandler settingsHandler;
//Heritrix状态，表示已经存在
private transient String sExit;
// 锁,控制同时只能一个线程运行使用本类
private transient ReentrantLock singleThreadLock = null;
//是否是单线程模式
private volatile transient boolean singleThreadMode = false;
// 表示当前爬虫状态，新生的
transient private Object state = NASCENT;
// 统计跟踪器
protected StatisticsTracking statistics = null;
//线程池
private transient ToePool toePool;

同时属性中有三个地方需要补充下:

1)"CHECKPOINTING".intern(); 为什么采用intern()方法？知道intern()方法的人都知道,intern在创建String对象时会先无内存里查看有没有该对象,有的话直接返回,没有则重新创建。而普通的new一般都是直接创建对象,如此在一定程序上可以节省开销

2)transient LinkedList<char[]> reserveMemory;应急内存。Heritrix在初始化的时候会先占用一部分内存,这里是6M。当发生内存溢出的时候则释放这部分内存,然后做一些日志、报告方面的操作

3)private transient ReentrantLock singleThreadLock,重入锁.大脑只能有一个,所以需要用这个来保证一个大脑的存在，而不是多个。这里为什么不用单例模式来取代,而采用这种方法？我这里没有用单例模式和这种方法进行实验比较,但直觉上告诉我,由于Heritrix是个多线程爬虫,并且可以同时有多个抓取Job,但同时只能有一个job运行。单例模式的synchronized不能保证当一个job发生线程中断时,其他job可以获得CrawlController的锁来运行他们的抓取,因为synchronized会一直锁住CrawlController对象.而使用ReentrantLock则可以做到这一点...我的想法,欢迎大家拍砖...

由于贴上方法介绍后本文章会太长，故方法介绍方法下一篇博客介绍,博客地址:http://guoyunsky.iteye.com/blog/650744

Heritrix源码分析(十二) Heritrix的控制中心(大脑)CrawlController(一)(转）的更多相关文章

Heritrix源码分析(十四) 如何让Heritrix不间断的抓取（转）
欢迎加入Heritrix群(QQ):109148319,10447185 , Lucene/Solr群(QQ) : 118972724 本博客已迁移到本人独立博客: http://www.yun5u ...
Heritrix源码分析(十四)
近段时间在搞定Lucene的一些问题,所以Heritrix源码分析暂时告一段落.今天下午在群里有同学提到了Heritrix异常终止的问题以及让Heritrix不停的抓取(就是抓完一遍后载入种子继续抓取 ...
ABP源码分析十二：本地化
本文逐个分析ABP中涉及到locaization的接口和类,以及相互之间的关系.本地化主要涉及两个方面:一个是语言(Language)的管理,这部分相对简单.另一个是语言对应得本地化资源(Locali ...
[Abp 源码分析]十二、多租户体系与权限验证
0.简介承接上篇文章我们会在这篇文章详细解说一下 Abp 是如何结合 IPermissionChecker 与 IFeatureChecker 来实现一个完整的多租户系统的权限校验的. 1.多租户的 ...
jQuery 源码分析(十二) 数据操作模块 html特性详解
jQuery的属性操作模块总共有4个部分,本篇说一下第1个部分:HTML特性部分,html特性部分是对原生方法getAttribute()和setAttribute()的封装,用于修改DOM元素的特性 ...
Vue.js 源码分析(十二) 基础篇组件详解
组件是可复用的Vue实例,一个组件本质上是一个拥有预定义选项的一个Vue实例,组件和组件之间通过一些属性进行联系. 组件有两种注册方式,分别是全局注册和局部注册,前者通过Vue.component() ...
Heritrix源码分析(十五) 各种问题总结（转）
开博客以及建立Heritrix 群有一段时间了(这里谢谢大家的关注),这篇博客将整理这段时间所遇到的问题.同时由于自己从今年5月份开始就不怎么接触Heritrix,很多东西开始遗忘(不过里面思想没忘) ...
Heritrix源码分析(十五)
开博客以及建立Heritrix 群有一段时间了(这里谢谢大家的关注),这篇博客将整理这段时间所遇到的问题.同时由于自己从今年5月份开始就不怎么接触Heritrix,很多东西开始遗忘(不过里面思想没忘) ...
Heritrix源码分析(十) Heritrix中的Http Status Code(Http状态码)（转）
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/649737 本博客已迁移到本人独立博客: http://www.yun5u ...

随机推荐

poj 3328(多起点多终点的最短路)
题目链接:http://poj.org/problem?id=3328 思路:这道题花了我将近3个小时,结果发现是方向搞错了,orz,过了样例之后提交wa,然后换成优先队列就过了.其实题目意思很简单, ...
Java常用类库
System System:类中的方法和属性都是静态的. out:标准输出,默认是控制台. in:标准输入,默认是键盘. System描述系统一些信息.获取系统属性信息:Properties getP ...
java应用程序利用Exe4j打包exe文件
1. 使用简介: 把java应用程序打成exe文件我们可以借助第三方软件exe4j来完成.Exe4j大家可以在网上下载,下载地址是: http://www.ej-technologies.c ...
iOS 网络处理注意点
原文链接:http://www.jianshu.com/p/a086c33566be 一. AFN 使用注意点 1. block循环引用 bug 解决 2.请求管理者 1.请求管理者存储到内存请求管 ...
SQL Server 使用日志传送
参考文献: http://msdn.microsoft.com/en-us/library/ms187103.aspx 概述 SQL Server 使用日志传送,您可以自动将“主服务器”实例上“主数据 ...
java Process的waitFor()
java Process的waitFor() 在编写Java程序时,有时候我们需要调用其他的诸如exe,shell这样的程序或脚本.在Java中提供了两种方法来启动其他程序: (1) 使用Runtim ...
Class文件内容及常量池
当JVM运行Java程序的时候,它会加载对应的class文件,并提取class文件中的信息存放在JVM开辟出来的方法区内存中.那么这个class文件里面到底有些什么内容呢? 一.class文件内容概述 ...
(CentOS) 程序安装包管理:yum
简介: Yum(全称为 Yellow dog Updater, Modified)是一个在Fedora和RedHat以及CentOS中的Shell前端软件包管理器.基于RPM包管理,能够从指定的服务器 ...
SSIS -->> Variable
变量的特点: 1)大小写敏感 2)可见范围限制,里层可以看到外层,外层看不到里层的: 在属性窗口开启EvaluateAsExpression选项可以支持expression动态赋值变量
Android提供了5种方式存储数据：
--使用SharedPreferences存储数据: --文件存储数据: --SQLite数据库存储数据: --使用ContentProvider存储数据: --网络存储数据: 一:使用SharedP ...

Heritrix源码分析(十二) Heritrix的控制中心(大脑)CrawlController(一)(转）

Heritrix源码分析(十二) Heritrix的控制中心(大脑)CrawlController(一)(转）的更多相关文章

随机推荐

热门专题